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说 明 


本 专题 的 大 部 分 内 容 来 自 spark 源 码 、spark 官 方 文档 ， 并 不 用 于 商业 用 途 。 转 
载 请 注 明 本 专题 地 址 。 本 专题 引用 他 人 的 内 容 均 列 出 了 参考 文献 ， 如 有 侵权 ， 请 务 
必 邮 件 通知 作者 。 邮 箱 地 址 : endymecy@sina.cn ° 


本 专题 的 部 分 文章 中 用 到 了 latex 来 写 数学 公式 ,可 以 在 浏览 器 中 安 
X MathJax 插件 用 来 展示 这 些 公 式 。 


本 人 水 平 有 限 ， 分 析 中 难免 有 错误 和 误解 的 地 方 ， 请 大 家 不 音 指教 ， 万 分 感 
激 。 有 问题 可 以 到 CEE 讨论 。 


License 


本 文 使 用 的 许可 见 LICENSE 


数据 类 型 


MLlib 既 支 持 保存 在 单 台 机 器 上 的 本 地 向 量 和 和 矩阵， 也 支持 备份 在 一 个 或 多 
个 RDD 中 的 分 布 式 矩 阵 。 本 地 向 量 和 本 地 矩阵 是 简单 的 数据 模型 ， 作 为 公共 接口 
提供 。 底 层 的 线性 代数 操作 通过 Breeze 和 jblas 提 供 。 在 MLLib 中 ， 用 于 有 监督 学 
习 的 训练 样本 称 为 标注 点 ( labeled point )。 


1 本 地 向 量 (Local vector) 


一 个 本 地 向 量 拥有 从 0 开始 的 integer 类 型 的 索引 以 及 double 类 型 的 值 ， 
它 保 存在 单 台 机 器 上 面 。 ML1ib 支持 两 种 类 型 的 本 地 向 量 : 稠密 ( dense rid 
A sparse ) 向 量 。 一 个 稠密 向 量 通过 一 个 double 类 型 的 数组 保存 数据 ， 
个 数组 表示 向 量 的 条 目 值 ( entry values ) ; merai reeds 
( indices 和 values ) 保存 数据 。 例 如 ， 一 个 向 量 (1.0, 0.0, 3.0) TARM 
密 的 格式 保存 为 [1.0, 0.0, 3.0] 或 者 以 稀 朴 的 格式 保存 为 (3, [0, 2], 
[1.0, 3.0]) ， 其 中 3 表示 数组 的 大 小 。 


本 地 向 量 的 基 类 是 Vector， Spark 提供 了 两 种 实现 : DenseVector 和 
SparseVector。 Spark 官方 推荐 使 用 Vectors 中 实现 的 工厂 方法 去 创建 本 地 向 量 。 
下 面 是 创建 本 地 向 量 的 例子 。 


import org.apache.spark.mllib.linalg.{Vector, Vectors} 
// 创建 一 个 dense vector (1.0, 0.0, 3.0). 
val dv: Vector = Vectors.dense(1.0, 0.0, 3.0) 


// 创建 一 个 sparse vector (1.0, 0.0, 3.0) # LJ x Em & 5| fe dà 

val svi: Vector = Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0) 
) 

// 创建 一 个 sparse vector (1.0，0.0，3.0) 并 且 指 定 它 的 索引 和 值 


val sv2: Vector = Vectors.sparse(3, Seq((0, o (2 2-0))) 


注意 ， Scala 默认 引入 scala.collection.immutable.Vector ， 这 里 我 
们 需要 主动 引入 MLLib 中 的 org.apache.spark.mllib.linalg.Vector 来 操 
作 。 我 们 可 以 看 看 Vectors 对 象 的 部 分 方法 。 


def dense(firstValue: Double, otherValues: Double*): Vector = 
new DenseVector((firstValue +: otherValues).toArray) 
def dense(values: Array[Double]): Vector = new DenseVector(value 
s) 
def sparse(size: Int, indices: Array[Int], values: Array[Double] 
): Vector - 
new SparseVector(size, indices, values) 
def sparse(size: Int, elements: Seq[(Int, Double)]): Vector - ( 
require(size > 0, "The size of the requested sparse vector m 
ust be greater than 0.") 
val (indices, values) - elements.sortBy( . 1).unzip 
var prev - -1 
indices.foreach { i => 
require(prev « i, s"Found duplicate indices: $i.") 
prev =i 
j 
require(prev < size, s"You may not write an element to index 
$prev because the declared " + 
s"size of your vector is $size") 
new SparseVector(size, indices.toArray, values.toArray) 
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2 1% ix. 4% (Labeled point) 


一 个 标注 点 就 是 一 个 本 地 向 量 (或 者 是 稠密 的 或 者 是 稀疏 的 ) ， 这 个 向 量 和 一 
个 标签 或 者 响应 相关 联 。 在 MLLib 中 ， 标 注 点 用 于 有 监督 学 习 算 法 。 我 们 用 一 
个 double 存储 标签 ， 这 样 我 们 就 可 以 在 回归 和 分 类 中 使 用 标注 点 。 对 于 二 分 
类 ， 一 个 标签 可 能 是 0 或 者 是 1 ; 对 于 多 分 类 ， 一 个 标签 可 能 代表 从 0 开始 的 类 别 索 
引 。 


在 MLlib 中 ， 一 个 标注 点 通过 样本 类 LabeledPoint 表 示 。 


@Since("0.8.0") 
@BeanInfo 
case class LabeledPoint @Since("1.0.0") ( 
QSince("0.8.0") label: Double, 
QSince("1.0.0") features: Vector) ( 
override def toString: String - ( 
s"($label, $features)" 


下 面 是 使 用 LabeledPoint 的 一 个 例子 。 


import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.regression.LabeledPoint 

// Create a labeled point with a positive label and a dense feat 
li emvecitol 

val pos - LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0)) 

// Create a labeled point with a negative label and a sparse fea 
UBER VEC i09 

val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(9, 2), Array( 
1.0, 3.0))) 


E a i 
ERE ELTR P > WRI LAH LER KIL Mlib 支持 读 取 训练 数 


据 存储 为 LIBSVM 格式 。 它 是 LIBSVM 和 LIBLINEAR 默 认 的 格式 。 它 是 一 种 文本 格 
式 ， 每 一 行 表 示 一 个 标注 的 稀疏 特征 向 量 ， 如 下 所 示 : 


label indexi:value1 index2:value2 ... 


3 ALE (Local matrix) 


一 个 本 地 和 矩阵 拥有 Integer 类 型 的 行 和 列 索 引 以 及 Double 类 型 的 
值 。 MLlib 支持 稠密 矩阵 和 稀疏 矩阵 两 种 。 秽 密 矩 阵 将 条 目 ( entry ) 值 保存 为 单 
个 double 数组 ， 这 个 数组 根据 列 的 顺序 存储 。 稀疏 和 矩阵 的 非 零 条 目 值 保存 为 压 
缩 稀 玖 列 ( Compressed Sparse Column ，CSC ) 格式 ， 这 种 格式 也 是 以 列 顺序 
存储 。 例 如 下 面 的 稠密 矩阵 : 


1.0 2.0 
3.0 4.0 
5.0 6.0 


这 个 稠密 矩阵 保存 为 一 维 数 组 [1.0, 3.0, 5.0, 2.0, 4.0, 6.0] ， 数 组 大 
小 为 (3,2) 。 


本 地 抵 阵 的 基 类 是 Matrix， 它 提供 了 两 种 实现 : DenseMatrixfe SparseMatrix 。 
推荐 使 用 Matrices 的 工厂 方法 来 创建 本 地 和 矩阵。 下 面 是 一 个 实现 的 例子 : 


import org.apache.spark.mllib.linalg.{Matrix, Matrices} 

/7 Create a dense matrix [(1:0, 2.0), (3.0, 4.0), (5.0, 6.9) 

val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 
4:0. 6.0) )} 

// Create a sparse matrix ((9.0, 0.0), (0.0, 8.0), (0.0, 6.0)) 
val sm: Matrix = Matrices.sparse(3, 2, Array(0, 1, 3), Array(0, 2 
, 1), Array(9, 6, 8)) 
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48 dt 4E I 05 FF BEAR T] S o TR AER o fa AE E AHR csc 。 关 于 压缩 矩阵 
的 介绍 ， 请 参看 文献 【1】。 


4 Ti AH $ (Distributed matrix) 


一 个 分 布 式 矩阵 拥有 long 类 型 的 行 和 列 索 引 ， 以 及 double 类 型 的 值 ， 分 
布 式 的 存储 在 一 个 或 多 个 RDD 中 。 选 择 正 确 的 格式 存储 大 型 分 布 式 矩阵 是 非常 重 
要 的 。 将 一 个 分 布 式 矩 阵 转换 为 另外 一 个 格式 可 能 需要 一 个 全 局 的 shuffle ， 这 
是 非常 昂贵 的 。 到 目前 为 止 ， 已 经 实现 了 三 种 类 型 的 分 布 式 矩阵 。 


基本 的 类 型 是 RowMatrix ， RowMatrix 是 一 个 面向 行 的 分 布 式 矩阵 ， 它 没 
有 有 意义 的 行 索引 。 它 的 行 保 存 为 一 个 RDD ,每 一 行 都 是 一 个 本 地 向 量 。 我 们 假设 
一 个 RowMatrix 的 列 的 数量 不 是 很 丐 大， 这 样 单 个 本 地 向 量 可 以 方便 的 
和 driver 通信 ， 也 可 以 被 单个 节点 保存 和 操作 。 
IndexedRowMatrix 和 RowMatrix 很 像 ， 但 是 它 拥 有 行 索引 ， 行 索引 可 以 用 于 
识别 行 和 进行 join 操作 。 CoordinateMatrix 是 一 个 分 布 式 矩 阵 ， 它 使 
用 coo 格式 存储 。 请 参看 文献 【1】 了 解 coo 格式 。 


4.1 RowMatrix 


RowMatrix 是 一 个 面向 行 的 分 布 式 矩 阵 ， 它 没有 有 意义 的 行 索引 。 它 的 行 保 
存 为 一 个 RDD ,每 一 行 都 是 一 个 本 地 向 量 。 因 为 每 一 行 保存 为 一 个 本 地 向 量 ， 所 以 
列 数 限制 在 了 整数 范围 。 


一 个 RowMatrix 可 以 通过 RDD[Vector] 实例 创建 。 创 建 完 之 后 ， 我 们 可 以 
计算 它 的 列 的 统计 和 分 解 。QR 分 解 的 形式 为 A=QR ， 其 中 Q Æ -DEREK > 
R 是 一 个 上 三 角 和 矩阵 。 下 面 是 一 个 RowMatrix 的 例子 。 


import org.apache.spark.mllib.linalg.Vector 
import org.apache.spark.mllib.linalg.distributed.RowMatrix 
val rows: RDD[Vector] = ... // an RDD of local vectors 


// Create a RowMatrix from an RDD[Vector]. 


val mat: RowMatrix - new RowMatrix(rows) 
// Get its size. 

val m = mat.numRows() 

val n = mat.numCols() 

// QR decomposition 


val qrResult = mat.tallSkinnyQR(true) 


4.2 IndexedRowMatrix 


IndexedRowMatrix 和 RowMatrix 很 像 ， 但 是 它 拥有 行 索引 。 索 引 的 行 保 
存 为 一 个 RDD[IndexedRow] ， 其 中 IndexedRow 是 一 个 参数 为 (Long, 
Vector) 的 样本 类 ， 所 以 每 一 行 通 过 它 的 索引 以 及 一 个 本 地 向 量 表示 。 


一 个 IndexedRowMatrix 可 以 通过 RDD[IndexedRow] 实例 创建 ， 并 且 一 
个 IndexedRowMatrix 可 以 通过 去 掉 它 的 行 索引 ， 转 换 成 RowMatrix 。 下 面 是 
一 个 例子 : 


import org.apache.spark.mllib.linalg.distributed.[IndexedRow, In 
dexedRowMatrix, RowMatrix) 

val rows: RDD[IndexedRow] = ... // an RDD of indexed rows 

// Create an IndexedRowMatr from an RDD[IndexedRow]. 

val mat: IndexedRowMatrix - new IndexedRowMatrix(rows) 

// Get Its Size. 

val m = mat.numRows() 

val n = mat.numCols() 

// Drop its row indices. 

val rowMat: RowMatrix = mat.toRowMatrix() 


IndexedRow 这 个 样本 类 的 代码 如 下 


case class IndexedRow(index: Long, vector: Vector) 


4.3 CoordinateMatrix 


CoordinateMatrix 是 一 个 分 布 式 矩阵 ， 它 的 条 目 保存 为 一 个 RDD 。 每 一 个 
条 目 是 一 个 (i: Long, j: Long, value: Double) 格式 的 元 组 ， 其 中 i 表示 行 
Rilo j 表示 列 索 引 ， value 表示 条 目 值 。 CoordinateMatrix 应 该 仅仅 在 矮 
阵 维度 很 大 并 且 纸 阵 非常 稀疏 的 情况 下 使 用 。 


CoordinateMatrix 可 以 通过 RDD[MatrixEntry] 实例 创建 ， 其 
中 MatrixEntry (Long, Long, Double) 的 包装 。 CoordinateMatrix 可 以 
转换 成 IndexedRowMatrix 。 下 面 是 一 个 例子 : 


import org.apache.spark.mllib.linalg.distributed. {CoordinateMatr 
ix, MatrixEntry} 

val entries: RDD[MatrixEntry] = ... // an RDD of matrix entries 
// Create a CoordinateMatrix from an RDD[MatrixEntry]. 

val mat: CoordinateMatrix = new CoordinateMatrix(entries) 

// Get its size. 

val m = mat.numRows() 

val n = mat.numCols() 

// Convert it to an IndexRowMatrix whose rows are sparse vectors. 


val indexedRowMatrix = mat.tolIndexedRowMatrix() 
H|pee——' E) 


MatrixEntry 这 个 样本 类 的 代码 如 下 : 


case class MatrixEntry(i: Long, j: Long, value: Double) 


4.4 BlockMatrix 


BlockMatrix 是 一 个 分 布 式 矩阵 ， 它 的 保存 为 一 
个 MatrixBlocks 的 RDD ° MatrixBlock 是 一 个 ((Int, Int), Matrix) 类 
型 的 元 组 ， 其 中 (Int, Int) 代表 块 的 索引 ， Matrix RATE 9 
BlockMatrix 支持 诸如 add 和 multiply 等 方法 。 BlockMatrix 还 有 一 个 帮 
助 方法 validate ， 用 来 判断 一 个 BlockMatrix 是 否 正确 的 创建 。 


可 以 轻松 的 通过 调用 toBlockMatrix 从 一 个 IndexedRowMatrix 或 
者 CoordinateMatrix 创建 一 个 BlockMatrix ° toBlockMatrix RUA 
建 1024 * 1024 大 小 的 块 ， 用 户 可 以 手动 修 个 块 的 大 小 。 下 面 是 一 个 例子 : 


import org.apache.spark.mllib.linalg.distributed.[BlockMatrix, C 
oordinateMatrix, MatrixEntry} 

val entries: RDD[MatrixEntry] =... // an RDD of (i, j, v) matri 
x entries 

// Create a CoordinateMatrix from an RDD[MatrixEntry]. 

val coordMat: CoordinateMatrix - new CoordinateMatrix(entries) 
// Transform the CoordinateMatrix to a BlockMatrix 

val matA: BlockMatrix - coordMat.toBlockMatrix().cache() 

// Nalidate whether the BlockMatrix is set up properly. Throws a 
n Exception when it is not valid. 

// Nothing happens if it is valid. 

matA.validate() 

// Calculate A^T A. 

val ata - matA.transpose.multiply(matA) 


5 参考 文献 


【1】 和 稀疏 矩 阵 存 储 格式 总 结 + 存储 效率 对 比 :COO,CSR,DIA,ELL,HYB 


概括 统计 


MLlib 支持 RDD[Vector] 列 的 概括 统计 ， 它 通过 调 
用 Statistics 的 colStats 方法 实现 。 colStats 返回 一 
个 MultivariateStatisticalsummary 对 象 ， 这 个 对 象 包含 列 式 的 最 大 值 、 最 小 
值 、 均 值 、 方 差 等 等 。 下 面 是 一 个 应 用 例子 : 


import org.apache.spark.mllib.linalg.Vector 

import org.apache.spark.mllib.stat.{MultivariateStatisticalSumma 
ry, Statistics} 

val observations: RDD[Vector] = ... // an RDD of Vectors 

// Compute column summary statistics. 

val summary: MultivariateStatisticalSummary = Statistics.colStat 
s(observations) 

println(summary.mean) // a dense vector containing the mean valu 
e for each column 

println(summary.variance) // column-wise variance 
println(summary.numNonzeros) // number of nonzeros in each column 


au—— ———— emen w([ 
下 面 我 们 具体 看 看 colstats 方法 的 实现 。 


def colStats(X: RDD[Vector]): MultivariateStatisticalSummary = { 
new RowMatrix(X).computeColumnSummaryStatistics() 


上 面 的 代码 非常 明显 ， 利 用 传人 的 RDD 创建 RowMatrix 对 象 ， 利 用 方 


法 computeColumnSummaryStatistics 统计 指标 。 


def computeColumnSummaryStatistic 


mary = { 


s(): MultivariateStatisticalSum 


val summary = rows.treeAggregate(new MultivariateOnlineSumma 


rizer)( 
(aggregator, data) -» aggregator.add(data), 


(aggregatori, aggregator2) => aggregatori.merge(aggregator 


2)) 
updateNumRows ( summary . count ) 
summary 


上 面 的 代码 调用 了 RDD 的 treeAggregate 方法 ， treeAggregate TH 


方法 ， 它 迭代 处 理 ROD 中 的 数据 ， 其 中 ， (aggregator, data) => 
aggregator.add(data) 处 理 每 条 数据 ， 将 其 添加 

到 MultivariateOnlinesummarizer ^  (aggregatori, aggregator2) => 
aggregatori.merge(aggregator2) 将 不 同 分 区 

的 MultivariateOnlinesummarizer 对 象 汇总 。 所 以 上 述 代 码 实 现 的 重点 
是 add 方法 和 merge 方法 。 它 们 都 定义 

在 MultivariateOnlineSummarizer 中 。 我 们 先 来 看 add 代码 。 


@Since("1.1.0") 
def add(sample: Vector): this.type = add(sample, 1.0) 


A 


zi 


private[spark] def add(instance: Vector, weight: Double): this. 


type = { 
if (weight == 0.0) return this 
if (n == 0) { 
n = instance.size 
currMean = Array.ofDim[Double](n) 
currM2n = Array.ofDim[Double](n) 
currM2 = Array.ofDim[Double](n) 
currL1 = Array.ofDim[Double](n) 
nnz = Array.ofDim[Double](n) 
currMax = Array.fill[Double](n)(Double.MinValue) 
currMin = Array.fill[Double](n)(Double.MaxValue) 
} 
val localCurrMean = currMean 
val localCurrM2n = currM2n 
val localCurrM2 = currM2 


val localCurrL1 = currLi 
val localNnz = nnz 
val localCurrMax = currMax 
val localCurrMin = currMin 
instance.foreachActive { (index, value) => 
if (value != 0.0) { 
if (localCurrMax(index) < value) { 
localCurrMax(index) = value 
} 
if (localCurrMin(index) > value) { 
localCurrMin(index) = value 
} 
val prevMean = localCurrMean(index) 
val diff = value - prevMean 
localCurrMean(index) = prevMean + weight * diff / (local 
Nnz(index) + weight) 
localCurrM2n(index) += weight * (value - localCurrMean(i 
ndex)) * diff 
localCurrM2(index) += weight * value * value 
localCurrLi(index) += weight * math.abs(value) 
localNnz(index) += weight 


} 

weightSum += weight 
weightSquareSum += weight * weight 
totalCnt += 1 

this 


天 于 


这 段 代码 使 用 了 在 线 算法 来 计算 均值 和 方差 。 根 据 文献 【1】 的 介绍 ， 计 算 均 
值 和 方差 遵循 如 下 的 迭代 公式 : 
(n EB 1) Tn—1 十 Xa 全 


Za = = Tn-1 十 
TL n. 


In 一 Zn 一 1 


Mon = Mon-1 T (Ti ai Tani) n BE n.) 
2 - Mon 

n—1 

1V12 n 


TL 


在 上 面 的 公式 中 ， x 表示 样本 均值 ， s 表示 样本 方差 ， delta 表示 总 体 方 
差 。 MLlib 实现 的 是 带 有 权重 的 计算 ， 所 以 使 用 的 选 代 公式 略 有 不 同 ， 参 考 文献 
[2] ° 


A Wr (Xn E Xn_1) 
n—i n-1,,, 
Wn 十 ZW 
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merge 方法 相对 比较 简单 ， 它 只 是 对 两 
个 MultivariateOnlineSummarizer 对 象 的 指标 作 合并 操作 。 


def merge(other: MultivariateOnlineSummarizer): this.type = { 
if (this.weightSum != 0.0 && other.weightSum != 0.0) { 
totalCnt += other.totalCnt 
weightSum += other.weightSum 
weightSquareSum += other .weightSquareSum 
var i = 0 
while (i < n) { 
val thisNnz = nnz(i) 
val otherNnz = other.nnz(i) 
val totalNnz = thisNnz + otherNnz 
if (totalNnz != 0.0) { 
val deltaMean = other.currMean(i) - currMean(i) 
// merge mean together 
currMean(i) += deltaMean * otherNnz / totalNnz 
// merge m2n together， 不 单纯 是 累加 
currM2n(i) += other.currM2n(i) + deltaMean * deltaMean 
* thisNnz * otherNnz / totalNnz 
// merge m2 together 
currM2(i) += other.currM2(i) 
// merge 11 together 
currL1(i) += other.currL1(1i) 
// merge max and min 


currMax(i) = math.max(currMax(i), other.currMax(i)) 
currMin(i) = math.min(currMin(i), other.currMin(i)) 


j 
nnz(i) - totalNnz 
i += 1 


} 
} else if (weightSum == 0.0 && other.weightSum != 0.0) { 


this.n = other.n 

this.currMean = other.currMean.clone() 
this.currM2n = other.currM2n.clone() 
this.currM2 = other.currM2.clone() 
this.currL1 = other.currL1.clone() 
this.totalCnt - other.totalCnt 
this.weightSum = other.weightSum 
this.weightSquareSum - other.weightSquareSum 
this.nnz - other.nnz.clone() 
this.currMax - other.currMax.clone() 
this.currMin - other.currMin.clone() 


} 
this 


这 里 需要 注意 的 是 ， 在 线 算法 的 并 行 化 实现 是 一 种 特殊 情况 。 例 如 样本 
集 x 分 到 两 个 不 同 的 分 区 ， 分 别 为 XA 和 x_B ， 那 么 它们 的 合并 需要 满足 下 面 
AMA: 
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依靠 文献 【3】 我 们 可 以 知道 ， 样 本 方差 的 无 偏 估计 由 下 面 的 公式 给 出 : 
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override def mean: Vector = { 
val realMean = Array.ofDim[Double](n) 
var i = 0 
while (i < n) { 
realMean(i) = currMean(i) * (nnz(i) / weightSum) 
i += 1 
} 
Vectors.dense(realMean) 
} 
override def variance: Vector = { 
val realVariance = Array.ofDim[Double](n) 
val denominator = weightSum - (weightSquareSum / weightSum) 
// Sample variance is computed, if the denominator is less t 
han ©, the variance is just 0. 
if (denominator > 0.0) { 
val deltaMean = currMean 
var i= 0 
val len = currM2n.length 
while (i < len) { 
realVariance(i) = (currM2n(i) + deltaMean(i) * deltaMean 
(ay temm (4) 05 
(weightSum - nnz(i)) / weightSum) / denominator 
i += 1 


} 


Vectors.dense(realVariance) 


[1] Algorithms for calculating variance 
[2] Updating mean and variance estimates: an improved method 


[3] Weighted arithmetic mean 


相关 性 系数 


计算 两 个 数据 集 的 相关 性 是 统计 中 的 常用 操作 。 在 MLlib 中 提供 了 计划 多 个 
数据 集 两 两 相关 的 方法 。 目 前 支持 的 相关 性 方法 有 皮尔 森 ( Pearson ) 相 关 和 斯 皮 


尔 曼 ( Spearman ) 相 关 。 


Statistics 提供 方法 计算 数据 集 的 相关 性 。 根 据 输入 的 类 型 ， 两 
个 RDD[Double] 或 者 一 个 RDD[Vector] ， 输 出 将 会 是 一 个 Double 值 或 者 相关 
性 矩阵 。 下 面 是 一 个 应 用 的 例子 。 


import org.apache.spark.SparkContext 

import org.apache.spark.mllib.linalg. 

import org.apache.spark.mllib.stat.Statistics 
val sc: SparkContext - ... 

val seriesX: RDD[Double] 
val seriesY: RDD[Double] 
artitions and cardinality as seriesX 


// a series 


// must have the same number of p 


// compute the correlation using Pearson's method. Enter "spearm 
an" for Spearman's method. If a 

// method is not specified, Pearson's method will be used by def 
ault. 

val correlation: Double - Statistics.corr(seriesX, seriesY, "pea 
rson") 

val data: RDD[Vector] = ... // note that each Vector is a row an 
d not a column 

// calculate the correlation matrix using Pearson's method. Use 
"spearman" for Spearman's method. 

// If a method is not specified, Pearson's method will be used b 
y default. 

val correlMatrix: Matrix - Statistics.corr(data, "pearson") 


这 个 例子 中 我 们 看 到 ， 计 算 相 关 性 的 入 口 函 数 是 Statistics.corr ， 当 输入 
的 数据 集 是 两 个 RDD[Double] 时 ， 它 的 实际 实现 是 Correlations.corr > Z4 
入 数据 集 是 RDD[Vector] 时 ， 它 的 实际 实现 是 Correlations.corrMatrix ° 
下 文 会 分 别 分 析 这 两 个 函数 。 


def corr(x: RDD[Double], 
y: RDD[Double], 
method: String = CorrelationNames.defaultCorrName): Double 
= 
val correlation = getCorrelationFromName(method) 
correlation.computeCorrelation(x, y) 


} 
def corrMatrix(X: RDD[Vector], 
method: String = CorrelationNames.defaultCorrName): Matrix 
= ot 
val correlation = getCorrelationFromName(method) 
correlation.computeCorrelationMatrix(X) 


} 
EE nal 


这 两 个 函数 的 第 一 步 就 是 获得 对 应 方法 名 的 相关 性 方法 的 实现 对 象 。 并 且 如 果 
输入 数据 集 是 两 个 RDD[Double] ， MLlib 会 将 其 统一 转换 为 RDD[Vector] 进 
行 处 理 。 


def computeCorrelationwithMatrixImpl(x: RDD[Double], y: RDD[Doub 
le]): Double - ( 

val mat: RDD[Vector] = x.zip(y).map ( case (xi, yi) -» new D 
enseVector(Array(xi, yi)) } 

computeCorrelationMatrix(mat)(9, 1) 


不 同 的 相关 性 方法 ， computeCorrelationMatrix 的 实现 不 同 。 下 面 分 别 介 
绍 皮 尔 林 相关 与 斯 皮尔 曼 相 关 的 实现 。 


1 KM ARTA KAR 


皮尔 森 相 关系 数 也 叫 皮 尔 森 积 差 相关 系数 ， 是 用 来 反映 两 个 变量 相似 程度 的 统 
计量 。 或 者 说 可 以 用 来 计算 两 个 向 量 的 相似 度 (在 基于 向 量 空间 模型 的 文本 分 类 、 
用 户 喜 好 推荐 系统 中 都 有 应 用 ) 。 皮 尔 森 相关 系数 计算 公式 如 下 : 


 COVQLY) E(X-ug)G-u)] ——— EQY)- EQDEQ) 
a ad C Ox Oy ~ KE[X?] EIXE VEY] — EVE? 


当 两 个 变量 的 线性 关系 增强 时 ， 相 关系 数 趋 于 1 或 -1。 正 相关 时 趋 于 1， 负 相关 
时 趋 于 -1。 当 两 个 变量 独立 时 相关 系统 为 0， 但 反之 不 成 立 。 当 Y 和 x 服从 联合 
正 态 分 布 时 ， 其 相互 独立 和 不 相关 是 等 价 的 。 ERI X ACCES THAT ORG 
实现 。 


override def computeCorrelationMatrix(X: RDD[Vector]): Matrix = 
{ 
val rowMatrix = new RowMatrix(X) 
// 计 算 协 方差 矩阵 
val cov = rowMatrix.computeCovariance() 
computeCorrelationMatrixFromCovariance(cov) 
} 
def computeCorrelationMatrixFromCovariance(covarianceMatrix: Mat 
rix): Matrix = { 
val cov = covarianceMatrix.toBreeze.asInstance0f[BDM[Double] 


val n = cov.cols 
// 计算 对 角 元 素 的 标准 差 
var i = 0 
while (i « n) { 
cov(i, i) = if (closeToZero(cov(i, i))) 0.0 else math.sqrt 
(cov(i, i)) 
i +=1 
} 
// Loop through columns since cov is column major 
var ] = 0 
var sigma = 0.0 
var containNaN = false 
while (j « n) { 
sigma - cov(j, j) 
i=0 
while (i < j) { 
val corr = if (Sigma == 0.0 || cov(i, i) == 0.0) { 
containNaN = true 
Double.NaN 
) else { 
/ /1RKÀE E. x: 85 2- KATH > FPcov(x, y)/(sigma x * sigma y) 
cov(i, j) / (sigma * cov(i, i)) 


cov(i, j) corr 
cov(j, i) = corr 
i += 1 
} 
J sa i 
} 
// put 1.0 on the diagonals 
i=0 
while (i < n) { 
COV (4 i) = 1.0 
i +=1 
} 


Matrices. fromBreeze(cov) 


2 斯 皮尔 受 相 关系 数 


使 用 皮尔 森 线性 相关 系数 有 2 个 局 限 : 首先 ， 必 须 假设 数据 是 成 对 地 从 正 态 分 
布 中 取得 的 ; 其 次 ， 数 据 至 少 在 逻辑 范围 内 是 等 距 的 。 对 不 服从 正 态 分 布 的 资料 不 
符合 使 用 和 矩 相关 系数 来 描述 关联 性 。 此 时 可 采用 秩 相关 ( rank 
correlation ) ， 也 称 等 级 相关 ， 来 描述 两 个 变量 之 间 的 关联 程度 与 方向 。 斯 皮 
尔 曼 秩 相 关系 数 就 是 其 中 一 种 。 


斯 皮尔 曼 秩 相关 系数 定义 为 排序 变量 ( ranked variables ) 之 间 的 皮尔 逊 相关 
系数 。 对 于 大 小 为 n 的 样本 集 ， 将 原始 的 数据 X i 和 v i 转换 成 排序 变 


E 


€ rgX i 和 rgY i ， 然 后 按照 皮尔 森 相 关系 数 的 计算 公式 进行 计算 。 


cov(rgx, Igy) 
Ts 一 Argxirgy 一 m m 
TEX rgy 


下 面 的 代码 将 原始 数据 转换 成 了 排序 数据 。 


override def computeCorrelationMatrix(X: RDD[Vector]): Matrix = 


{ 
// ((columnindex, value), rowUid) 
// 使 用 zipWithUniqueId 产 生 的 rowUid 全 局 唯一 
val colBased = X.zipWithUniqueId().flatMap { case (vec, uid) 


vec.toArray.view.zipWithlIndex.map { case (v, j) => 


((j, v), uid) 


j 

// 通过 (columnIndex，Vvalue) 全 局 排序 ， 排 序 的 好 处 是 使 下 面 只 需 先 代 一 次 
val sorted = colBased.sortByKey() 

// 分 配 全 局 的 ranks (using average ranks for tied values) 

val globalRanks = sorted.zipWithIndex().mapPartitions { iter 


-1 
var preVal = Double. NaN 


var preCol 


var startRank - -1.0 

var cachedUids - ArrayBuffer.empty[Long] 

val flush: () => Iterable[(Long, (Int, Double))] = () => { 
val averageRank = startRank + (cachedUids.size - 1) / 2.0 


val output = cachedUids.map { uid => 
(uid, (preCol, averageRank) ) 


} 
cachedUids.clear() 
output 
} 
iter.flatMap { case (((j, v), uid), rank) => 
// 如 果 有 新 的 值 或 者 cachedUids 过 大 ， 调 用 flush 


if (j != precol || v != preval || cachedUids.size >= 100 
00000) { 
val output = flush() 
preCol = j 


preval V 
startRank = rank 
cachedUids += uid 
output 

} else { 
cachedUids += uid 
Iterator.empty 
} 
} ++ flush() 
} 
// 使 用 rank 值 代替 原来 的 值 
val groupedRanks = globalRanks.groupByKey().map { case (uid, 
iter) => 


// 根据 列 索引 排序 
Vectors.dense(iter.toSeq.sortBy( . 1).map( . 2).toArray) 
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在 每 个 分 区 内 部 ， 对 于 列 索 引 相 同 且 值 相同 的 数据 对 ， 我 们 为 其 分 配 平 
均 rank 值 。 平 均 rank 的 计算 方式 如 下 面 公式 所 示 : 


| 
rank,,, = TANK start + = 


其 中 rank start 表示 列 索引 相同 且 值 相同 的 数据 对 在 分 区 中 第 一 次 出 现时 
的 索引 位 置 ，n 表示 列 索 引 相 同 且 值 相同 的 数据 对 出 现 的 次 数 。 


3 参考 文献 


[1] Pearson product-moment correlation coefficient 
[2] Spearman's rank correlation coefficient 


【3】 相 关 性 检验 --Spearman 秩 相关 系数 和 皮尔 森 相 关系 数 


分 层 取 样 


先 将 总 体 的 单位 按 某 种 特征 分 为 若干 次 级 总 体 〈 层 
单纯 随机 抽样 ， 组 成 一 个 样本 的 统计 学 计算 方法 叫做 分 
在 spark.mllib 中 ， 用 key 来 分 层 。 


) ， 然 后 再 从 每 一 层 内 进行 
层 抽样 。 


与 存在 于 spark.mllib 中 的 其 它 统 计 隐 数 不 同 ， 分 层 采 样 方 
法 sampleByKey 和 sampleByKeyExact 可 以 在 key-value 对 的 RDD 上 执行 。 
在 分 层 采 样 中 ， 可 以 认为 key 是 一 个 标签 ， value 是 特定 的 属性 。 例 


者 是 文档 中 的 词 。 sampleByKey 方法 通过 掷 硬币 的 方式 决定 是 否 采样 一 个 观察 数 
据 ， 因 此 它 需 要 我 们 传递 ( pass over ) 数据 并 且 提 供 期 望 的 数据 大 小 

(size )* sampleByKeyExact 比 每 层 使 用 sampleByKey 随机 抽样 需要 更 多 的 有 
意义 的 资源 ， 但 是 它 能 使 样本 大 小 的 准确 性 达到 了 99.99% © 


sampleByKeyExact() 允 许 用 户 准确 抽取 f k * nk 个 样本 ， 这 里 f k 表示 
期 望 获取 键 为 k 的 样本 的 比例 ，n k 表示 键 为 k 的 键 值 对 的 数量 。 下 面 是 一 个 
使 用 的 例子 : 


import org.apache.spark.SparkContext 

import org.apache.spark.SparkContext._ 

import org.apache.spark.rdd.PairRDDFunctions 

val sc: SparkContext =... 

val data = ... // an RDD[(K, V)] of any key value pairs 

val fractions: Map[K, Double] = ... // specify the exact fractio 
n desired from each key 

// Get an exact sample from each stratum 

val approxSample = data.sampleByKey(withReplacement = false, fra 

ctions) 

val exactSample = data.sampleByKeyExact(withReplacement = false, 
fractions) 


4 withReplacement 为 true 时 ， 采 用 Poissonsampler 取样 器 ， 
当 withReplacement 为 false 使 ， 采 用 Bernoullisampler 取样 器 。 


def sampleByKey(withReplacement: Boolean, 
fractions: Map[K, Double], 
seed: Long = Utils.random.nextLong): RDD[(K, V)] = self.wi 
thScope { 
val samplingFunc = if (withReplacement) { 
StratifiedSamplingUtils.getPoissonSamplingFunction(self, f 
ractions, false, seed) 
} else { 
StratifiedSamplingUtils.getBernoulliSamplingFunction(self, 
fractions, false, seed) 
} 
self .mapPartitionswithIndex(samplingFunc, preservesPartition 
ing = true) 
} 
def sampleByKeyExact ( 
withReplacement: Boolean, 
fractions: Map[K, Double], 
seed: Long = Utils.random.nextLong): RDD[(K, V)] = self.wi 
thScope { 
val samplingFunc = if (withReplacement) { 
StratifiedSamplingUtils.getPoissonSamplingFunction(self, f 
ractions, true, seed) 
} else { 
StratifiedSamplingUtils.getBernoulliSamplingFunction(self, 
fractions, true, seed) 
} 
self .mapPartitionswithIndex(samplingFunc, preservesPartition 
ing = true) 


} 


下 面 我 们 分 别 来 看 sampleByKey 和 sampleByKeyExact 的 实现 。 


1 sampleByKey 的 实现 


当 我 们 需要 不 重复 抽样 时 ， 我 们 需要 用 泊 松 抽样 器 来 抽样 。 当 需要 重复 抽样 
时 ， 用 伯 努 利 抽样 器 抽样 。 sampleByKey 的 实现 比较 简单 ， 它 就 是 统一 的 随机 拍 
样 。 


1.1 泊 松 抽样 器 
我 们 首先 看 泊 松 抽样 器 的 实现 。 


def getPoissonSamplingFunction[K: ClassTag, V: ClassTag](rdd: RDD 
[(K, V)], 

fractions: Map[K, Double], 

exact: Boolean, 

seed: Long): (Int, Iterator[(K, V)]) => Iterator[(K, V)] = 


(idx: Int, iter: Iterator[(K, V)]) => { 
// 初 始 化 随机 生成 器 
val rng = new RandomDataGenerator ( ) 
rng.reSeed(seed + idx) 
iter.flatMap { item => 
// 获 得 下 一 个 泊 松 值 
val count = rng.nextPoisson(fractions(item. 1)) 
if (count == 0) { 
Iterator.empty 
} else { 


Iterator .fill(count ) (item) 


RE 


getPoissonSamplingFunction 返回 的 是 一 个 函数 ， 传 递 
给 mapPartitionswWithIndex 处 理 每 个 分 区 的 数据 。 这 
里 RandomDataGenerator 是 一 个 随机 生成 器 ， 它 用 于 同时 生成 均匀 值 ( uniform 


values ) 和 泊 松 值 ( Poisson values )。 
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def getBernoulliSamplingFunction[K, V](rdd: RDD[(K, V)], 
fractions: Map[K, Double], 
exact: Boolean, 
seed: Long): (Int, Iterator[(K, V)]) => Iterator[(K, V)] = 


var samplingRateByKey - fractions 
(idx: Int, iter: Iterator[(K, V)]) => { 
// 初 始 化 随机 生成 器 
val rng = new RandomDataGenerator() 
rng.reSeed(seed + idx) 
// Must use the same invoke pattern on the rng as in getSe 
qOop for without replacement 
// in order to generate the same sequence of random number 
s when creating the sample 
iter.filter(t => rng.nextUniform() < samplingRateByKey(t._ 


1)) 


2 sampleByKeyExact 的 实现 


sampleByKeyExact 获取 更 准确 的 抽样 结果 ， 它 的 实现 也 分 为 两 种 情况 ， 重 
复 抽样 和 不 重复 抽样 。 前 者 使 用 泊 松 抽样 器 ， 后 者 使 用 伯 努 利 抽样 器 。 


2.1 泊 松 抽样 器 


val counts = Some(rdd.countByKey( )) 
// 计 算 立 即 接受 的 样本 数量 ， 并 且 为 每 层 生成 候选 名 单 
val finalResult = getAcceptanceResults(rdd, true, fractions, cou 
nts, seed) 
// 决 定 接 受 样本 的 阅 值 ， 生 成 准确 的 样本 大 小 
val thresholdByKey = computeThresholdByKey(finalResult, fraction 
s) 
(idx: Int, iter: Iterator[(K, V)]) => { 
val rng = new RandomDataGenerator() 
rng.reSeed(seed + idx) 
iter.flatMap { item => 
val key = item. 1 
val acceptBound - finalResult(key).acceptBound 
// Must use the same invoke pattern on the rng as in g 
etSeqOp for with replacement 
// in order to generate the same sequence of random nu 
mbers when creating the sample 
val copiesAccepted - if (acceptBound -- 0) OL else rng 
.nextPoisson(acceptBound ) 
// 候 选 名 单 
val copiesWaitlisted = rng.nextPoisson(finalResult(key 
) .waitListBound) 
val copiesInSample = copiesAccepted + 
(9 until copiesWaitlisted).count(i => rng.nextUnifor 
m() < thresholdByKey (key) ) 
if (copiesInSample > 0) { 
Iterator.fill(copiesInSample.toInt ) (item) 
} else { 
Iterator.empty 


2.2 伯 努 利 抽样 


def getBernoulliSamplingFunction[K, V](rdd: RDD[(K, V)], 
fractions: Map[K, Double], 
exact: Boolean, 
seed: Long): (Int, Iterator[(K, V)]) => Iterator[(K, V)] = 


var samplingRateByKey = fractions 
// 计 算 立 即 接受 的 样本 数量 ， 并 且 为 每 层 生 成 候选 名 单 
val finalResult = getAcceptanceResults(rdd, false, fractions 
, None, seed) 
// RR AL LAA) BYE > E rh AER 9 AE ARK D 
samplingRateByKey = computeThresholdByKey(finalResult, fract 
ions) 
(idx: Int, iter: Iterator[(K, V)]) => { 
val rng = new RandomDataGenerator( ) 
rng.reSeed(seed + idx) 
// Must use the same invoke pattern on the rng as in getSe 
qOp for without replacement 
// in order to generate the same sequence of random number 
s when creating the sample 
iter.filter(t => rng.nextUniform() < samplingRateByKey(t._ 


1)) 


假设 检测 


假设 检测 是 统计 中 有 力 的 工具 ， 它 用 于 判断 一 个 结果 是 否 在 统计 上 是 显著 的 、 
这 个 结果 是 否 有 机 会 发 生 。 spark.mllib 目前 支持 皮尔 森 卡 方 检测 。 输 入 属性 的 
类 型 决定 是 作 拟 合 优 度 ( goodness of fit ) 检 测 还 是 作 独 立 性 检测 。 拟 合 优 度 检 
测 需要 输入 数据 的 类 型 是 vector ， 独 立 性 检测 需要 输入 数据 的 类 型 


是 Matrix 。 


spark.mllib 也 支持 输入 数据 类 型 为 RDD[LabeledPoint] ， 它 用 来 通过 卡 
方 独立 性 检测 作 特 征 选择 。 Statistics 提供 方法 用 来 作 皮 尔 森 卡 方 检测 。 下 面 
是 一 个 例子 : 


import org.apache.spark.SparkContext 

import org.apache.spark.mllib.linalg. 

import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.stat.Statistics. 

val sc: SparkContext - ... 


val vec: Vector = ... // a vector composed of the frequencies of 
events 
// 作 皮 和 尔 森 拟 合 令 测 


val 人 = Statistics.chiSqTest(vec) 
println(goodnessOfFitTestResult) 
val mat: Matrix = ... // a contingency matrix 
// 作 皮 尔 森 独立 性 检测 
val independenceTestResult = Statistics.chiSqTest(mat) 
println(independenceTestResult) // summary of the test including 
the p-value, degrees of freedom... 
val obs: RDD[LabeledPoint] = ... // (feature, label) pairs. 
// 独立 性 检测 用 于 特征 选择 
val featureTestResults: Array[ChiSqTestResult] = Statistics.chiS 
qTest(obs) 
var i= 1 
featureTestResults.foreach { result => 
println(s"Column $i:\n$result") 
i += 1 


另外 ， spark.mllib 提供 了 一 个 Kolmogorov-Smirnov (KS) 检测 的 1- 
sample, 2-sided 实现 ， 用 来 检测 概率 分 布 的 相等 性 。 通 过 提供 理论 分 布 (现在 
仅仅 支持 正太 分 布 ) 的 名 字 以 及 它 相应 的 参数 ， 或 者 提供 一 个 计算 累积 分 布 
( cumulative distribution ) 的 函数 ， 用 户 可 以 检测 原 假 设 或 零 假 设 ( null 
hypothesis ): 即 样本 是 否 来 自 于 这 个 分 布 。 用 户 检测 正太 分 布 ， 但 是 不 提供 分 布 
参数 ， 检 测 会 默认 该 分 布 为 标准 正太 分 布 。 


Statistics 提供 了 一 个 运行 1-sample，2-sided KS 检测 的 方法 ， 下 面 就 
是 一 个 应 用 的 例子 。 


import org.apache.spark.mllib.stat.Statistics 

val data: RDD[Double] = ... // an RDD of sample data 

// run a KS test for the sample versus a standard normal distrib 
ution 

val testResult = Statistics. kolmogorovSmirnovTest(data, "norm", 0 
, i) 

println(testResult) 

// perform a KS test using a cumulative distribution function of 
our making 

val myCDF: Double => Double = ... 

val testResult2 - Statistics.kolmogorovSmirnovTest(data, myCDF) 


JE N 


流 式 显著 性 检测 


显著 性 检验 即 用 于 实验 处 理 组 与 对 照 组 或 两 种 不 同 处 理 的 效应 之 间 是 否 有 差 
异 ， 以 及 这 种 差异 是 否 显著 的 方法 。 

常 把 一 个 要 检验 的 假设 记 作 HO , 称 为 原 假 设 〈 或 零 假 设 ) ( null 
hypothesis )， 与 HO 对 立 的 假设 记 作 Hi ， 称 为 备 择 假 设 ( alternative 
hypothesis ) ° 

e 在 原 假设 为 丨 时 ， 决 定 放 育 原 假 设 ， 称 为 第 一 类 错误 ， 其 出 现 的 概率 通常 记 

作 alpha 

e 在 原 假设 不 丨 时 ， 决 定 接受 原 假设 ， 称 为 第 二 类 错误 ， 其 出 现 的 概率 通常 记 
作 beta 


通常 只 限定 犯 第 一 类 错误 的 最 大 概率 alpha ， 不 考虑 犯 第 二 类 错误 的 概 
Æ beta 。 这 样 的 假设 检验 又 称 为 显著 性 检验 ， 概 率 alpha 称 为 显著 性 水 平 。 


MLlib 提供 一 些 检测 的 在 线 实现 ， 用 于 支持 诸如 A/B 测试 的 场景 。 这 些 检 
测 可 能 执行 在 Spark Streaming 的 DStream[(Boolean,Double)] 上 ， 元 组 的 
第 一 个 元 素 表示 控制 组 ( control group (false) ) 或 者 处 理 组 ( treatment 
group (true) ), 第 二 个 元 素 表示 观察 者 的 值 。 


流 式 显著 性 检测 支持 下 面 的 参数 : 


e peacePeriod : 来 自流 中 忽略 的 初始 数据 点 的 数量 ， 用 于 减少 novelty 
effects : 


e windowSize : 执行 假设 检测 的 以 往 批 次 的 数量 。 如 果 设 置 为 0， 将 对 之 前 所 
有 的 批 次 数据 作 累 积 处 理 。 


StreamingTest 支持 流 式 假设 检测 。 下 面 是 一 个 应 用 的 例子 。 


val data = ssc.textFileStream(dataDir).map(line => line.split("," 
) match { 
case Array(label, value) -» BinarySample(label.toBoolean, valu 
e.toDouble) 
3) 
val streamingTest = new StreamingTest() 
. setPeacePeriod(0) 
. setWindowSize(0) 
.SetTestMethod("welch") 
val out - streamingTest.registerStream(data) 
out.print() 


【1】 显 著 性 检验 


随机 数 生 成 


随机 数 生 成 在 随机 算法 、 性 能 测试 中 非常 有 用 ， spark.mllib 支持 生成 随机 
的 RDD , RDD 的 独立 同 分 布 ( iid ) 的 值 来 自 于 给 定 的 分 布 : 均匀 分 布 、 标 准 正太 
分 布 、 泊 松 分 布 。 


RandomRDDs 提供 工厂 方法 生成 随机 的 双 精 度 RDD 或 者 向 量 RDD 。 下 面 的 
例子 生成 了 一 个 随机 的 双 精 度 RDD ， 它 的 值 来 自 于 标准 的 正太 分 布 N(O,1) ° 


import org.apache.spark.SparkContext 

import org.apache.spark.mllib.random.RandomRDDs. _ 

val sc: SparkContext - ... 

// Generate a random double RDD that contains 1 million i.i.d. v 

alues drawn from the 

// standard normal distribution "N(O, 1)', evenly distributed in 
10 partitions. 

val u = normalRDD(sc, 1000000L, 10) 

// Apply a transform to get a random double RDD following `N(1, 

2) 

val v = u.map(x => 1.0 + 2.0 * x) 


normalRDD 的 实现 如 下 面 代码 所 示 。 


def normalRDD( 
sc: SparkContext, 
size: Long, 
numPartitions: Int = 0, 
seed: Long = Utils.random.nextLong()): RDD[Double] = { 
val normal = new StandardNormalGenerator( ) 
randomRDD(sc, normal, size, numPartitionsOrDefault(sc, numPa 
rtitions), seed) 
} 
def randomRDD[T: ClassTag]( 
sc: SparkContext, 
generator: RandomDataGenerator[T], 
size: Long, 
numPartitions: Int = 0, 
seed: Long = Utils.random.nextLong()): RDD[T] = { 
new RandomRDD[T](sc, size, numPartitionsOrDefault(sc, numPar 
titions), generator, seed) 
j 
private[mllib] class RandomRDD[T: ClassTag](sc: SparkContext, 
size: Long, 
numPartitions: Int, 
Qtransient private val rng: RandomDataGenerator[T], 
Qtransient private val seed: Long - Utils.random.nextLong) e 
xtends RDD[T](sc, Nil) 


1 理论 分 析 


核 密度 估计 是 在 概率 论 中 用 来 估计 未 知 的 密度 函数 ， 属 于 非 参 数 检 验方 法 之 
一 。 iesu n 43K$x(1,x(2),...,x (n)$» Xd EX AC X 的 概率 密度 有 多 
大 ， 可 以 通过 下 面 的 核 密 度 估计 方法 估计 。 





1 
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在 上 面 的 式 子 中 ，K 为 核 密度 函数 ，h 为 窗帘 。 核 密度 函数 的 原理 比较 简 
单 ， 在 我 们 知道 某 一 事物 的 概率 分 布 的 情况 下 ， 如 果 某 一 个 数 在 观察 中 出 现 了 ， 我 
们 可 以 认为 这 个 数 的 概率 密度 很 大 ， 和 这 个 数 比 较 近 的 数 的 概率 密度 也 会 比较 大 ， 
而 那些 离 这 个 数 远 的 数 的 概率 密度 会 比较 小 。 


基于 这 种 想法 ， 针 对 观察 中 的 第 一 个 数 ， 我 们 可 以 用 K 去 拟 合 我 们 想象 中 的 
那个 远 小 近 大 概率 密度 。 对 每 一 个 观察 数 拟 合 出 的 多 个 概率 密度 分 布 函 数 ， 取 平 
均 。 如 果 某 些 数 是 比较 重要 的 ， 则 可 以 取 加 权 平 均 。 需 要 说 明 的 一 点 是 ， 核 密度 的 
估计 并 不 是 找到 引 正 的 分 布 函数 。 


在 MLlib 中 ， 仅 仅 支持 以 高 斯 核 做 核 蜜 度 估 计 。 以 高 斯 核 做 核 蜜 度 估 计时 核 
密度 估计 公式 (1) 如 下 : 


1 = SD 
2 n 
p, GO ud 
2 例子 
KernelDensity 提供 了 方法 通过 样本 RDD 计算 核 密度 估计 。 下 面 的 例子 给 


出 了 使 用 方法 。 


import org.apache.spark.mllib.stat.KernelDensity 
import org.apache.spark.rdd.RDD 
val data: RDD[Double] = ... // an RDD of sample data 
// Construct the density estimator with the sample data and a st 
andard deviation for the Gaussian 
// kernels 
val kd = new KernelDensity() 

. setSample(data) 

.setBandwidth(3.90) 
// Find density estimates for the given values 
val densities - kd.estimate(Array(-1.0, 2.0, 5.0)) 


3 代码 实现 


通过 调用 KernelDensity.estimate 方法 来 实现 核 密 度 函 数 估 计 。 看 下 面 的 
代码 。 


def estimate(points: Array[Double]): Array[Double] = { 
val sample = this.sample 
val bandwidth = this.bandwidth 
val n = points.length 
// 在 每 个 高 斯 密度 函数 计算 中 ， 这 个 值 都 需要 计算 ， 所 以 提前 计算 。 
val logStandardDeviationPlusHalfLog2Pi = math.log(bandwidth) 
+ 0.5 * math.log(2 * math.Pi) 


val (densities, count) = sample.aggregate((new Array[Double ] 


(n), OL))( 
(x, y) = { 
var i = 0 


while (i « n) { 
X. 1(i) += normPdf(y, bandwidth, logStandardDeviationP 
lusHalfLog2Pi, points(i)) 


i += 1 
(xoc EET) 
3 
(x, y) = { 


/ / daxpy 8249 4E 78] z& 44 — 4 61 So bk 3 — 6] € 8348 * FP : dy[i]+=da*d 
x[i] > # Pda * X 
blas:daxpy(n, 1.0, y._1, 1, x. 1, 1) 
CE 
}) 

// 在 向 量 上 来 一 个 常数 

blas.dscal(n, 1.0 / count, densities, 1) 

densities 


上 述 代码 的 seqop 函数 中 调用 了 normPdf ， 这 个 函数 用 于 计算 核 函 数 为 高 
斯 分 布 的 概率 密 度 函 数 。 参 见 上 面 的 公式 (1)。 公 式 (1) 的 实现 如 下 面 代码 。 


def normPdf ( 
mean: Double, 
standardDeviation: Double, 
logStandardDeviationPlusHalfLog2Pi: Double, 
x: Double): Double = { 
val x0 = x - mean 
val x1 = x0 / standardDeviation 
val logDensity = -0.5 * x1 * x1 - logStandardDeviationPlusHa 
lfLog2Pi 
math.exp(logDensity) 


该 方法 首先 将 公式 (1) 取 对 数 ， 计 算 结 果 ， 然 后 再 对 计算 结果 取 指 数 。 


【1】 核 密度 估计 


【2 】 民 语言 与 非 参 数 统计 ( 核 密度 估计 ) 


交换 最 小 二 乘 


1 1t 2 ÆALS 


ALS 是 交替 最 小 二 乘 ( alternating least squares ) 的 简称 。 在 机 器 学 
习 中 ， ALS 特 指使 用 交替 最 小 二 乘 来 解 的 一 个 协同 推荐 算法 。 它 通过 观察 到 的 所 
有 用 户 给 商品 的 打分 ， 来 推断 每 个 用 户 的 喜好 并 向 用 户 推荐 适合 的 商品 。 举 个 例 
子 ， 我 们 看 下 面 一 个 8*8 的 用 户 打分 矩阵 。 


|| | ts) | | fe 
[2] | E [8| [| | 
6| s| | [| |] 
——--SLH-L- 





ikAABIEERA AE—ITNA—AHP (ut, = ,u8) “、 每 一 列 代表 一 个 商 
S (v1,v2,.,V8) 、 用 户 的 打分 为 1-9 分 。 这 个 矩阵 只 显示 了 观察 到 的 打分 
我 们 需要 推测 没有 观察 到 的 打分 。 比 如 (u6，v5) 打分 多 少 NE ee 
来 解决 这 个 问题 ， 可 以 得 到 唯一 的 结果 。 因为 数 独 的 规则 很 强 ， 每 添加 一 条 规则 > 
就 让 整个 系统 的 自由 度 下 降 一 个 量 级 。 当 我 们 满足 所 有 的 规则 时 ， 整 个 系统 的 自由 

度 就 降 为 1 了 ， 也 就 得 出 了 唯一 的 结果 。 对 于 上 面 的 打分 矩阵 ， 如 果 我 们 不 添加 

任何 条 件 的 话 ， 也 即 打分 之 间 是 相互 独立 的 ， 我 们 就 没 法 得 到 (u6，v5) 的 打 
分 。 所 以 在 这 were 分 矩阵 的 基础 上 ， 我 们 需要 提出 一 个 限制 其 自由 度 的 合理 假 
设 ， 使 得 我 们 可 以 通过 观察 已 有 打分 来 猜测 未 知 打分 


ALS 的 核心 就 是 这 样 一 个 假设 : 打分 矩阵 是 近似 低 秩 的 。 换 和 句 话 说， 就 是 一 
个 m*n 的 打分 矩阵 可 以 由 Ce JETE U (m*k) fe v (k*n) 的 乘积 来 近 
IA > FPSA-U(V)AT),k <= m,n$。 这 就 是 ALS 的 矩阵 分 解 方 法 。 这 样 我 们 把 系统 的 
自由 度 从 o(mn) 降 到 了 0((m+n)k) ° 


那么 ALS 的 低 秩 假设 为 什么 是 合理 的 呢 ? 我 们 描述 一 个 人 的 喜好 经 常 是 在 一 
个 抽象 的 低 维 空间 上 进行 的 ， 并 不 需要 一 一 列 出 他 喜好 的 事物 。 例 如 ， 我 喜好 看 侦 
探 影 片 ， 可 能 代表 我 喜欢 《神探 夏 洛 特 》、《 神 探 狄 仁 杰 》 等 。 这 些 影片 都 符合 我 
对 自己 喜好 的 描述 ， 也 就 是 说 他 们 在 这 个 抽象 的 低 维 空间 的 投影 和 我 的 喜好 相似 。 
再 抽象 一 些 来 描述 这 个 问题 ， 我 们 把 某 个 人 的 喜好 映射 到 了 低 维 向 量 ui 上 ， 同 时 
将 某 个 影片 的 特征 映射 到 了 维度 相同 的 向 量 vj 上 ， 那 么 这 个 人 和 这 个 影片 的 相似 
度 就 可 以 表述 成 这 两 个 向 量 之 间 的 内 积 $ufpAfPvfj}$ 。 我们 把 打分 理解 成 相似 度 ， 
那么 打分 矩阵 A 就 可 以 由 用 户 喜 好 矩阵 和 产品 特征 矩阵 的 乘积 $ ULVINT} $ 来 近似 
了 。 


低 维 空间 的 选取 是 一 个 问题 。 这 个 低 维 空间 要 能 够 很 好 的 区 分 事物 ， 那 么 就 需 
要 一 个 明确 的 可 量化 目标 ， 这 就 是 重 构 误差 。 在 ALS 中 我 们 使 用 F 范 数 来 量化 重 构 
误差 ， 就 是 每 个 元 素 重 构 误 差 的 平方 和 。 这 里 存在 一 个 问题 ， 我 们 只 观察 到 部 分 打 
分 ，A 中 的 大 量 未 知 元 是 我 们 想 推断 的 ， 所 以 这 个 重 构 误 差 是 包含 未 知 数 的 。 RR 
决 方案 很 简单 : 只 计算 已 知 打 分 的 重 构 误 差 。 


Y igen(aij 一 u;vj )? 
后 面 的 章节 我 们 将 从 原理 上 讲解 spark 中 实现 的 ALS 模型 。 


2 spark 中 ALS 的 实现 原理 


Spark 利用 交换 最 小 二 乘 解 决 矩 阵 分 解 问题 分 两 种 情况 : 数据 集 是 显 式 反馈 
和 数据 集 是 隐 式 反馈 。 由 于 隐 式 反馈 算法 的 原理 是 在 显示 反馈 算法 原理 的 基础 上 作 
的 修改 ， 所 以 我 们 在 此 只 会 具体 讲解 数据 集 为 隐 式 反馈 的 算法 。 算 法 实现 所 依据 的 
文献 见 参 考 文献 【1】。 


从 广义 上 讲 ， 推 荐 系统 基于 两 种 不 同 的 策略 : 基于 内 容 的 方法 和 基于 协同 过 滤 
的 方法 。 spark 中 使 用 协同 过 滤 的 方式 。 协 同 过 滤 分 析 用 户 以 及 用 户 相 关 的 产品 
的 相关 性 ， 用 以 识别 新 的 用 户 - 产 品 相关 性 。 协 同 过 滤 系 统 需 要 的 唯一 信息 是 用 户 过 
去 的 行为 信息 ， 比 如 对 产品 的 评价 信息 。 协 同 过 滤 是 领域 无 关 的 ， 所 以 它 可 以 方便 
解决 基于 内 容 方 法 难以 解决 的 许多 问题 。 

推荐 系统 依赖 不 同类 型 的 输入 数据 ， 最 方便 的 是 高 质量 的 显 式 反馈 数据 ， 它 们 
包含 用 户 对 感 兴 趣 商品 明确 的 评价 。 例 如 ， Netflix 收集 的 用 户 对 电影 评价 的 星 
星 等 级 数据 。 但 是 显 式 反馈 数据 不 一 定 总 是 找 得 到 ， 因 此 推荐 系统 可 以 从 更 丰富 的 


隐 式 反馈 信息 中 推测 用 户 的 偏好 。 隐 式 反馈 类 型 包括 购买 历史 、 浏 览 历史 、 搜 索 模 
式 甚 至 鼠标 动作 。 例 如 ， 购 买 同一 个 作者 许多 书 的 用 户 可 能 剖 欢 这 个 作者 。 


许多 研究 都 集中 在 处 理 显 式 反馈 ， 然 而 在 很 多 应 用 场景 下 ， 应 用 程序 重点 关注 
隐 式 反馈 数据 。 因 为 可 能 用 户 不 愿意 评价 商品 或 者 由 于 系统 限制 我 们 不 能 收集 显 式 
反馈 数据 。 在 隐 式 模型 中 ， 一 旦 用 户 允 许 收集 可 用 的 数据 ， 在 客户 端 并 不 需要 额外 
的 显 式 数据 。 文 献 中 的 系统 避免 主动 地 向 用 户 收 集 显 式 反馈 信息 ， 所 以 系统 仅仅 依 
靠 隐 式 信息 。 


了 解 隐 式 反馈 的 特点 非常 重要 ， 因 为 这 些 特质 使 我 们 避免 了 直接 调用 基于 显 式 
反馈 的 算法 。 最 主要 的 特点 有 如 下 几 种 : 


© (1) 没有 负 反馈 。 通 过 观察 用 户 行为 ， 我 们 可 以 推测 那个 商品 他 可 能 喜欢 ， 
然后 购买 ， 但 是 我 们 很 难 推测 哪个 商品 用 户 不 喜欢 。 这 在 显 式 反馈 算法 中 并 不 
存在 ， 因 为 用 户 明 确 告诉 了 我 们 哪些 他 喜欢 哪些 他 不 喜欢 。 


e (2) 隐 式 反馈 是 内 在 的 噪音 。 虽 然 我 们 拼命 的 追踪 用 户 行为 ， 但 是 我 们 仅仅 
只 是 猜测 他 们 的 偏好 和 申 实 动机 。 例 如 ， 我 们 可 能 知道 一 个 人 的 购买 行为 ， 但 

是 这 并 不 能 完全 说 明 偏 好 和 动机 ， 因 为 这 个 商品 可 能 作为 礼物 被 购买 而 用 户 并 
喜欢 它 。 

e (3) 显示 反馈 的 数值 值 表 示人 和 偏好 ( preference ) ， 隐 式 回 馈 的 数值 值 表示 
信任 ( confidence ) 。 基 于 显示 反馈 的 系统 用 星星 等 级 让 用 户 表 达 他 们 的 
喜好 程度 ， 例 如 一 颗 星 表 示 很 不 喜欢 ， 五 颗 星 表示 非常 喜欢 。 基 于 隐 式 反馈 的 
数值 值 描述 的 是 动作 的 频率 ， 例 如 用 户 购 买 特定 商品 的 次 数 。 一 个 较 大 的 值 并 
不 能 表明 更 多 的 偏爱 。 但 是 这 个 值 是 有 用 的 ， 它 描述 了 在 一 个 特定 观察 中 的 信 
任 度 。 一 个 发 生 一 次 的 事件 可 能 对 用 户 偏 爱 没 有 用 ， 但 是 一 个 周期 性 事件 更 可 

能 反映 一 个 用 户 的 选择 。 


e (4) 评价 隐 式 反馈 推荐 系统 需要 合适 的 手段 。 


2.2 显 式 反馈 模型 


潜在 因素 模型 由 一 个 针对 协同 过 滤 的 交替 方法 组 成 ， 它 以 一 个 更 加 全 面 的 方式 
a 在 特征 来 解释 观察 的 ratings 数据 。 我 们 关注 的 模型 由 奇异 值 分 解 
( svD ) 推演 而 来 。 一 个 典型 的 模型 将 每 个 用 户 u (和 包含 一 个 用 户 -因素 向 
€ oui ) 和 每 个 商品 v (包含 一 个 用 户 -因素 向 量 vj ) 联系 起 来 。 预 测 通 过 内 


fa S$r(ij)-u((T)v. 1 人 $ 来 实现 。 另 一 个 需要 关注 的 地 方 是 参数 估计 。 许 多 当前 的 工作 
都 应 用 到 了 显 式 反馈 数据 集中 ， 这 些 模型 仅仅 基于 观察 到 的 rating 数据 直接 建 
模 ， 同 时 通过 一 个 适当 的 正则 化 来 避免 过 拟 合 。 公 式 如 下 : 


minuy > (rj — u vj + AGI? + Il (24) 
Tij 
在 公式 (2.1) 中 ， lambda 是 正则 化 的 参数 。 正 规 化 是 为 了 防止 过 拟 合 的 情况 发 
生 ， 具 体 参 见 文献 【3】。 这 样 ， 我 们 用 最 小 化 重 构 误差 来 解决 协同 推荐 问题 。 我 
们 也 成 功 将 推荐 问题 转换 为 了 最 优化 问题 。 


2.3 隐 式 有 反馈 模型 


在 显 式 反馈 的 基础 上 ， 我 们 需要 做 一 些 改动 得 到 我 们 的 隐 式 反馈 模型 。 首 先 ， 
我 们 需要 形式 化 由 $r{( 太 8 变量 衡量 的 信任 度 的 概念 。 我 们 引入 了 一 组 二 元 变量 gp{i)$ 
， 它 表示 用 户 u 对 商品 v 的 偏好 。$p_{i$ 的 公式 如 下 : 

1, n 0 
pij = ~ -0 (2.2) 
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户 不 喜欢 该 商品 。 然 而 我 们 的 信念 ( beliefs ) 与 变化 的 信任 ( confidence ) 
等 级 息息相关 。 首 先 ， 很 自然 的 ，$p 全 8 的 值 为 0 和 低 信任 有 关 。 用 户 对 一 个 商品 没 
有 得 到 一 个 正 的 偏好 可 能 源 于 多 方面 的 原因 ， 并 不 一 定 是 不 喜欢 该 商品 。 例 如 ， 用 
户 可 能 并 不 知道 该 商品 的 存在 。 另外 ， 用 户 购买 一 个 商品 也 并 不 一 定 是 用 户 喜欢 
它 。 因 此 我 们 需要 一 个 新 的 信任 等 级 来 显示 用 户 偏爱 某 个 商品 。 一 般 情况 下 ， 
Srfij)}$ 越 大 ， 越 能 暗示 用 户 喜欢 某 个 商品 。 因 此 ， 我 们 引入 了 一 组 变量 $c{ 从 8， 它 衡 
量 了 我 们 观察 到 gpf{ 认 $ 的 信任 度 。$c fj$ 一 个 合理 的 选择 如 下 所 示 : 


cj = 1+ an; (2.3) 
按照 这 种 方式 ， 我 们 存在 最 小 限度 的 信任 度 ， 并 且 随 着 我 们 观察 到 的 正 偏 向 的 
证 据 越 来 越 多 ， 信 任 度 也 会 越 来 越 大 。 


我 们 的 目的 是 找到 用 户 向 量 ui 以 及 商品 向 量 vj 来 表明 用 户 人 和 偏好。 这些 向 量 
分 别 是 用 户 因 素 (特征 ) 向 量 和 商品 因素 (特征 ) 向 量 。 本 质 上 ， 这 些 向 量 将 用 户 
和 商品 映射 到 一 个 公用 的 隐 式 因素 空间 ， 从 而 使 它们 可 以 直接 比较 。 这 和 用 于 显 式 
数据 集 的 矩阵 分 解 技术 类 似 ， 但 是 包 金 两 点 不 一 样 的 地 方 : (1) 我 们 需要 考虑 不 
同 的 信任 度 ， (2) 最 优化 需要 考虑 所 有 可 能 的 u，v 对 ， 而 不 仅仅 是 和 观察 数据 
相关 的 uov 对 。 因 此 ， 通 过 最 小 化 下 面 的 损失 函数 来 计算 相关 因素 


( factors ) ° 


Ca Dy — u! vj Ne *AQ Ihe ||? PL |?) (2.4) 
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考虑 到 损失 函数 包含 mn 个 元 素 ，m 是 用 户 的 数量 ，n 是 商品 的 数量 。 一 
般 情 况 下 ， m*n 可 以 到 达 几 百 亿 。 这 么 多 的 元 素 应 该 避免 使 用 随机 梯度 下 降 法 来 
求解 ， 因 此 ，spark 选 择 使 用 交替 最 优化 方式 求解 。 


Z X (2.1) 和 公式 (2.4) 是 非 凸 函数 ， 无 法 求解 最 优 解 。 人 但是， 固定 公式 中 
的 用 户 -特征 向 量 或 者 商品 -特征 向 量 ， 公 式 就 会 变 成 二 次 方程 ， 可 以 求 出 全 局 的 极 
小 值 。 交 替 最 小 二 乘 的 计算 过 程 是 : 交替 的 重新 计算 用 户 -特征 向 量 和 商品 -特征 向 
量 ， 每 一 步 都 保证 降低 损失 函数 的 值 ， 直 到 找到 极 小 值 。 交 替 最 小 二 乘法 的 处 理 
程 如 下 所 示 : 


x 


(1)  WjetbuRvi 

(2) ”循环 k，k=12… 
U**! = argminyf(U,V^) 
V**! = argminyf(U**!, V) 


3 ALS 在 spark 中 的 实现 


在 spark 的 源 代码 中 ， ALS 算法 实现 
于 Qa REE Spec ee One nes on ALS.scala 文件 中 。 AM 以 官方 文 
档 中 的 例子 为 起 点 ， 来 分 析 ALS 算法 的 分 布 式 实现 。 下 面 是 官方 的 例子 


// 处 理 训 练 数据 
val data = sc.textFile("data/mllib/als/test.data") 
val ratings = data.map( .split(',') match { case Array(user, ite 
m, rate) -» 
Rating(user.toInt, item.toInt, rate.toDouble) 


3) 
// 使 用 ALS 训 练 推荐 模型 
val rank = 10 


val numIterations = 10 
val model = ALS.train(ratings, rank, numIterations, 0.01) 


从 代码 中 我 们 知道 ， 训 练 模型 用 到 了 ALS.scala 文件 中 的 train 方法 ， 下 
面 我 们 将 详细 介绍 train 方法 的 实现 。 在 此 之 前 ， 我 们 先 了 解 一 下 train 方法 
的 参数 表示 的 含义 。 


def train( 

ratings: RDD[Rating[ID]], /7/ 训练 数据 

rank: Int = 10, // 隐 念 特 征 数 

numUserBlocks: Int = 10, // B žr 

numItemBlocks: Int = 10, 

maxIter: Int = 10, // 和 迭代 次 数 

regParam: Double = 1.0, 

implicitPrefs: Boolean = false, 

alpha: Double = 1.0, 

nonnegative: Boolean = false, 

intermediateRDDStorageLevel: StorageLevel = StorageLevel.MEM 
ORY_AND_DISK, 

finalRDDStorageLevel: StorageLevel = StorageLevel.MEMORY AND 
. DISK, 

checkpointInterval: Int - 10, 

seed: Long = OL): MatrixFactorizationModel 





以 上 定义 中 ， ratings 指 用 户 提供 的 训练 数据 ， 它 包括 用 户 id R.A 
S id 集 以 及 相应 的 打分 集 。 rank 表示 隐 含 因素 的 数量 ， 也 即 特征 的 数 
量 。 numUserBlocks 和 numItemBlocks 分 别 指 用 户 和 商品 的 块 数量 ， 即 分 区 数 
量 。 maxIter 表示 迭代 次 数 。 regParam 表示 最 小 二 乘法 中 lambda 值 的 大 小 。 
implicitPrefs 表示 我 们 的 训练 数据 是 否 是 隐 式 反馈 数据 。 Nonnegative 表示 
求解 的 最 小 二 乘 的 值 是 否 是 非 负 ,根据 Nonnegative 的 值 的 不 同 ， spark 使 用 了 
不 同 的 求解 方法 。 


下 面 我 们 分 步骤 分 析 train 方法 的 处 理 流 程 。 
e (1) 初始 化 ALSPartitioner 和 LocallndexEncoder ° 


ALSPartitioner 实现 了 基于 hash 的 分 区 ， 它 根据 用 户 或 者 商 
oe id 的 hash 值 来 进行 分 区 。 LocalIndexEncoder 对 (blockid， 
localindex) FP (分 区 id， 分 区 内 索引 ) 进行 编码 ， 并 将 其 转换 为 一 个 整数 ， 这 
个 整数 在 高 位 存 分 区 ID ， 在 低位 存 对 应 分 区 的 索引 ， 在 空间 上 尽量 做 到 了 不 浪 
费 。 同时 也 可 以 根据 这 个 转换 的 整数 分 别 获 得 blockid 和 localindex 。 这 两 
个 对 象 在 后 续 的 代码 中 会 用 到 。 


val userPart = new ALSPartitioner(numUserBlocks) 

val itemPart - new ALSPartitioner(numItemBlocks) 

val userLocalIndexEncoder = new LocallndexEncoder(userPart.numPa 
rtitions) 

val itemLocalIndexEncoder = new LocallndexEncoder(itemPart.numPa 
rtitions) 


//ALSPartitioner #PHashPartitioner 
class HashPartitioner(partitions: Int) extends Partitioner { 
def numPartitions: Int = partitions 
def getPartition(key: Any): Int = key match { 
case null => 0 
case _ => Utils.nonNegativeMod(key.hashCode, numPartitions) 
} 
override def equals(other: Any): Boolean = other match { 
case h: HashPartitioner => 


h.numPartitions == numPartitions 
case _ => 
false 
} 
override def hashCode: Int = numPartitions 
} 
//LocalIndexEncoder 


private[recommendation] class LocalIndexEncoder(numBlocks: Int) 
extends Serializable { 


private[this] final val numLocalIndexBits = 
math.min( java. lang. Integer .numberOfLeadingZeros(numBlocks 
PSP di) 
// £f& (<<, 相当 于 乘 2) > GH (>>， 相 当 于 除 2) 和 无 符号 右 移 (>>>， 无 符号 
右 移 ， 忽 略 符号 位 ， 空 位 都 以 9 补 齐 ) 
private[this] final val localIndexMask = (1 << numLocalIndex 
Bits) - 1 
//encodeIndex 高 位 存 分 区 ID， 在 低位 存 对 应 分 区 的 索引 
def encode(blockId: Int, localIndex: Int): Int = { 
(blockId << numLocalIndexBits) | localIndex 


@inline 
def blockId(encoded: Int): Int = { 
encoded >>> numLocallndexBits 


@inline 
def localIndex(encoded: Int): Int = { 
encoded & localIndexMask 


e (2) 根据 nonnegative 参数 选择 解决 矩阵 分 解 的 方法 。 


如 果 需 要 解 的 值 为 非 负 , 即 E A true ， 那 么 用 非 负 最 小 二 乘 
( NNLS ) 来 解 ， 如 果 没 有 这 个 限制 ， 用 乔 里 斯 基 ( Cholesky ) 分 解 来 解 。 


val solver = if (nonnegative) new NNLSSolver else new CholeskySo 
lver 
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和 其 本 身 的 乘积 的 分 解 。 在 ml 代码 中 ， 直 接 调用 netlib-java 封 装 的 dppsv 方法 
实现 。 


lapack.dppsv("u", k, 1, ne.ata, ne.atb, k, info) 


可 以 深入 dppsv 代码 ( Fortran 代码 ) 了 解 更 深 的 细节 。 我 们 分 析 的 重点 
是 非 负 正则 化 最 小 二 乘 的 实现 ， 因 为 在 某 些 情况 下 ， 方 程 组 的 解 为 负数 是 没有 意义 
的 。 虽 然 方 程 组 可 以 得 到 精确 解 ， 但 却 不 能 取 负 值 解 。 在 这 种 情况 下 ， 其 非 负 最 小 
二 乘 解 比方 程 的 精确 解 更 有 意义 。 `NNLS 在 最 优化 模块 会 作 详 细 讲解 。 


e (3) 将 ratings 数据 转换 为 分 区 的 格式 。 


将 ratings 数据 转换 为 分 区 的 形式 ， 即 ( (用 户 分 区 id， 商 品 分 区 id) ， 分 区 
数据 集 blocks) ) 的 形式 ， 并 缓存 到 内 存 中 。 其 中 分 区 id 的 计算 是 通 
过 ALSPartitioner 的 getPartitions 方法 获得 的 ， ， 分 区 数据 集 
由 RatingBlock 组 成 ， 它 表示 (用 户 分 区 id， 商 品 分 区 id ) 对 所 对 应 的 用 户 id 


集 ， 商 品 id 集 ， 以 及 打分 集 ， 即 (用 户 id 集 ， 商 品 id 集 ， 打 分 集 ) 。 


val blockRatings = partitionRatings(ratings, userPart, itemPart) 
.persist(intermediateRDDStorageLevel) 


// 以 下 十 partitionRatings 的 实现 





val numPartitions = srcPart.numPartitions * dstPart.numPartiti 
ons 
ratings.mapPartitions { iter => 
val builders = Array.fill(numPartitions) (new RatingBlockBu 
ilder[ID]) 
iter.flatMap { r => 
val srcBlockId = srcPart.getPartition(r.user) 
val dstBlockId - dstPart.getPartition(r.item) 
// 当 前 builder 的 索引 位 置 


val idx = srcBlockId + srcPart.numPartitions * dstBlockI 


d 
val builder = builders(idx) 
builder.add(r) 
//30% 4 Mbuilder 4 REAF2048° MAWE—-ATE 
if (builder.size >= 2048) { // 2048 * (3 * 4) = 24k 
builders(idx) = new RatingBlockBuilder 
Iterator.single(((srcBlockId, dstBlockId), builder.bui 
1d())) 
) else { 
Iterator.empty 
j 
p aa dl 


builders.view.zipWithIndex.filter( . 1.size > 0).map { c 
ase (block, idx) => 


val srcBlockid 


idx 96 srcPart.numPartitions 


val dstBlocklId = idx / srcPart.numPartitions 
((srcBlockId, dstBlockId), block.build()) 


} 
}.groupByKey().mapValues { blocks => 


val builder = new RatingBlockBuilder [ID] 
blocks. foreach(builder .merge) 


builder.build() 
).setName("ratingBlocks") 


} 


e (4) 获取 inblocks 和 outblocks 数据 。 


获取 inblocks 和 outblocks 数据 是 数据 处 理 的 重点 。 我 们 知道 ， 通 信 复 杂 
度 是 分 布 式 实现 一 个 算法 时 要 重点 考虑 的 问题 ， 不 同 的 实现 可 能 会 对 性 能 产生 很 大 
的 影响 。 我 们 假设 最 坏 的 情况 : 即 求解 商品 需要 的 所 有 用 户 特 征 都 需要 从 其 它 节 点 
获得 。 如 下 图 3.1 所 示 ， 求 解 v1 需要 获得 ut ，u2 ， 求 解 v2 需要 获 
得 u1 , u2 , ud 等 ， 在 这 种 假设 下 ， 每 步 迭 代 所 需 的 交换 数据 量 
X O(m*rank) ， 其 中 m 表示 所 有 观察 到 的 打分 集 大 小 ， rank 表示 特征 数量 。 





从 图 3.1 中 ， 我 们 知道 ， 如 果 计 算 v1 和 v2 是 在 同一 个 分 区 上 进行 的 ， 那 么 
我 们 只 需要 把 ut 和 u2 一 次 发 给 这 个 分 区 就 好 了 ， 而 不 需要 将 u2 分 别 发 
给 vi, v2 ， 这 样 就 省 掉 了 不 必要 的 数据 传输 。 


图 3.2 描 述 了 如 何在 分 区 的 情况 下 通过 U 来 求解 V ， 注 意 节点 之 间 的 数据 交 


换 量 减 少 了 。 使 用 这 种 分 区 结构 ， 我 们 需要 在 原始 打分 数据 的 基础 上 额外 保存 一 些 
信息 。 





在 Qi 中 ， 我 们 需要 知道 和 vi Co ee) ， 从 而 构建 
最 小 二 乘 问题 并 求解。 这 部 分 数据 不 仅 包 含 原 始 打 分 数据 ， 还 包含 从 每 个 用 户 分 区 
收 到 的 向 量 排 序 信 息 ， 在 代码 里 称 作 InBlock 。 在 P1 中 ， Mi ve 
把 ul , u2 发 给 Sis e 我 们 可 以 查看 和 ui 相关 联 的 所 有 产品 来 确定 需 
把 ui 发 给 谁 ， 但 每 次 迭代 都 扫 一 遍 数 据 很 不 划算 ， 所 以 在 spark 的 实现 中 只 计 
算 一 次 这 个 信息 ， NON ERI RDD 缓存 起 来 重复 使 用 。 这 部 分 数据 我 们 在 代 
码 里 称 作 OutBlock 。 所 以 从 u RAR v ， 我 们 需要 通过 用 户 的 OutBlock 信息 
把 用 户 向 量 发 给 商品 分 区 ， 然 后 通过 商品 的 InBlock 信息 构建 最 小 二 乘 问题 并 求 
解 。 从 V 求解 U ， 我 们 需要 商品 的 OutBlock 信息 和 用 户 的 InBlock 信息 。 所 
有 的 InBlock 和 OutBlock 信息 在 迭代 过 程 中 都 通过 RDD 缓存 。 打 分 数据 在 用 
P$) InBlock 和 商品 的 InBlock 各 存 了 一 份 ， 但 分 区 方式 不 同 。 nen 
免 在 迭代 过 程 中 原始 数据 的 交换 。 


下 面 介 绍 获 取 InBlock 和 OutBlock 的 方法 。 下 面 的 代码 用 来 分 别 获 取 用 户 
和 商品 的 InBlock 和 OutBlock 。 


val (userInBlocks, userOutBlocks) =makeBlocks("user", blockRatin 
gs, 

userPart, itemPart, intermediateRDDStorageLevel ) 
/ / & 4&&userBlockIdfeitemBlockIdPZUA X pg 85 ZG 4E 
val ec Block iD = blockRatings.map { 

case ((userBlockId, itemBlockId), RatingBlock(userIds, itemIds 
, localRatings)) => 

((itemBlockId, userBlockId), RatingBlock(itemIds, userIds, 1 

ocalRatings)) 
E 
val (itemInBlocks, itemOutBlocks) -makeBlocks("item", swappedBlo 
ckRatings, 

itemPart, userPart,intermediateRDDStorageLevel) 


我 们 会 以 来 商品 的 InBlock 以 及 用 户 的 outBlock 为 例 来 分 
析 makeBlocks 方法 。 因 为 在 第 (5) 步 中 构建 最 小 二 乘 的 讲解 中 ， 我 们 会 用 到 这 
两 部 分 数据 。 


下 面 的 代码 用 来 求 商品 的 InBlock 信息 。 


val inBlocks = ratingBlocks.map { 
case ((srcBlockId, dstBlockId), RatingBlock(srcIds, dstIds, ra 


tings)) => 
val start = System.nanoTime() 
val StIdsel = New de << 20) 
// 将 用 户 id 保 存 到 hashset 中 ， 用 来 去 重 
dstIds. A TE UE add) 
val sortedDstIds = new Array[ID](dstIdSet.size) 


var i- 0 
var pos = dstIdSet.nextPos(0) 
while (pos != -1) ( 


sortedDstIds(i) = dstIdSet.getValue(pos) 
pos = dstIdSet.nextPos(pos + 1) 
i += 1 


Sorting.quickSort(sortedDstIds) 
val dstIdToLocalIndex - new OpenHashMap[ID, Int](sortedDstId 
s.length) 
i=0 
while (i < sortedDstIds.length) { 
dstIdToLocalIndex.update(sortedDstIds(i), i) 
i+=1 


// 求 取 块 内 ， 用 户 id 的 本 地 位 置 
val dstLocalIndices = dstIds.map(dstIdToLocalIndex.apply) 


// 返 回 数 据 集 


"X 4 


BIER (dstBlockId, srcIds, dstLocalIndices, ratings)) 
}.groupByKey(new ALSPartitioner(srcPart.numPartitions)) 
.mapValues { iter => 
val builder = 
new UncompressedInBlockBuilder [ID] (new LocalIndexEncoder (d 
stPart.numPartitions) ) 
iter.foreach { case (dstBlockId, srcIds, dstLocalIndices, ra 
tings) => 
builder.add(dstBlockId, srcIds, dstLocalIndices, ratings) 
} 
// 构 建 非 压 缩 块 ， 并 压缩 为 TnBlock 
builder.build(). CODES 
}.setName(prefix + "InBlocks") 
.persist(storageLevel) 


这 上段 代码 首先 对 ratingBlocks 数据 集 作 map 操作 ， 将 ratingBlocks 转 
换 成 (商品 分 区 id ， (用 户 分 区 id， 商 品 集合 ， 用 户 id 在 分 区 中 相对 应 的 位 置 ， 打 
T) 这 样 的 集合 形式 。 然 后 对 这 个 数据 集 作 groupByKey 操作 ， 以 商品 分 
区 id 为 key 值 ， 处 理 key 对 应 的 值 ， 将 数据 集 转换 成 (商品 分 区 id， 
InBlocks) 的 形式 。 这 里 值得 我 们 去 分 析 的 是 输入 块 ( InBlock ) 的 结构 。 为 
简单 起 见 ， 我 们 用 图 3.2 为 例 来 说 明 输 入 块 的 结构 。 


VA Qi 为 例 ， 我 们 需要 知道 关于 via 和 v2 的 所 有 打分 : (vi, ui, r11)? 
(v2, uł, r142)> (vi, u2, r21)> (v2, u2, r22)> (v2, u3, r32) ， 把 这 
些 项 以 Tuple 的 形式 存储 会 存在 问题 ， 第 一 ， Tuple 有 额外 开销 ， 每 
个 Tuple 实例 都 需要 一 个 指针 ， 而 每 个 Tuple 所 存 的 数据 不 过 是 两 个 ID 和 一 个 
打分 ; 第 二 ， 存 储 大 量 的 Tuple 会 降低 垃圾 回收 的 效率 。 所 以 spark 实现 中 ， 
是 使 用 三 个 数组 来 存储 打分 的 ， 如 ([vi, v2, vi, v2, v2], [u1, u1, u2, u2, 
u3], [r11, r12, r21, r22, r32]) 。 这 样 不 仅 大 幅 减 少 了 实例 数量 ， 还 有 效 地 
利用 了 连续 内 存 。 


但 是 ， 光 这 么 做 并 不 够 ， spark 代码 实现 中 ， 并 没有 存储 用 户 的 丨 实 id ;而 
是 存储 的 使 用 LocalIndexEncoder 生成 的 编码 ， 这 样 节省 了 空间 ， 格 式 
为 UncompressedInBlock : (商品 id 集 ， 用 户 id 集 对 应 的 编码 集 ， 打 分 集 ) * 
4a > ([v1, v2, v1, v2, v2], [ui4, uił, ui2, ui2, ui3], [r11, r12, 
r21, r22, r32]) 。 这 种 结构 仍 昌 有 压缩 的 空间 ， spark 调用 compress 方法 
将 商品 id 进行 排序 (排序 有 两 个 好 处 ， 除 了 压缩 以 外 ， 后 文 构建 最 小 二 乘 也 会 因 
此 受益 ) ， 并 且 转 换 为 (不 重复 的 有 序 的 商品 id 集 ， 商 品位 置 偏 移 集 ， 用 户 id 集 对 应 的 
编码 集 ， 打 分 集 ) 的 形式 ， 以 获得 更 优 的 存储 效率 〈 代 码 中 就 是 将 矩阵 的 coo 格式 
转换 为 csc 格式 ， 你 可 以 更 进一步 了 解 和 矩阵 存储 ， 以 获得 更 多 信息 ) 。 以 这 样 的 
格式 修改 ([v1, v2, v1, v2, v2], [ui1, uil, ui2, ui2, ui3], [r11, 
r12, r21, r22, r32]) ， 得 到 的 结果 是 ([v1, v2], [0, 2, 5], [uit, ui2, 
uil, ui2, ui3], [r11, r21, r12, r22, r32]) 。 其 中 [0, 2] 指 v1 对 应 的 
打分 的 区 间 是 [6，2] ， [2, 5] dà v2 对 应 的 打分 的 区 间 是 [2, 5] ° 


Compress 方法 利用 spark 内 置 的 Timsort 算法 
将 UncompressedInBlock 进行 排序 并 转换 为 InBlock 。 代 码 如 下 所 示 : 


def compress(): InBlock[ID] = ( 
val sz - length 
//Timsortz2F/f 


sort() 
val uniqueSrcIdsBuilder - mutable.ArrayBuilder.make[ID] 


val dstCountsBuilder = mutable.ArrayBuilder .make[Int ] 
var preSrcId = srcIds(0) 
uniqueSrcIdsBuilder += preSrcId 
var curCount = 1 
var i= 1 
var j = 0 
while (i < sz) { 
val srcId = srcIds(i) 
if (srcId != preSrcId) { 
uniqueSrcIdsBuilder += srcId 
dstCountsBuilder += curCount 
preSrcId - srcId 
J ss 
curCount = 0 
Jj; 
curCount += 1 
it=1 
} 
dstCountsBuilder += curCount 
val uniqueSrcIds = uniqueSrcIdsBuilder.result() 
val numUniqueSrdIds = uniqueSrcIds.length 
val dstCounts - dstCountsBuilder.result() 
val dstPtrs = new Array[Int](numUniqueSrdIds + 1) 
var sum - O 


// 计 算 偏 移 量 
while (i < numUniqueSrdIds) { 
sum += dstCounts(i) 
i-*-1 
dstPtrs(i) - sum 
} 
InBlock(uniqueSrcIds, dstPtrs, dstEncodedIndices, ratings) 
} 
private def sort(): Unit = { 
val sz = length 
val sortId = Utils.random.nextInt() 
val sorter = new Sorter(new UncompressedInBlockSort[ID] ) 
sorter.sort(this, 0, length, Ordering[KeyWrapper [ID] ] ) 
} 


下 面 的 代码 用 来 来 用 户 的 OutBlock 信息 。 


val outBlocks = inBlocks.mapValues { case InBlock(srcIds, dstPtr 
s, dstEncodedIndices, _) => 
val encoder = new LocalIndexEncoder(dstPart.numPartitions) 
val activeIds = Array.fill(dstPart.numPartitions)(mutable.Arra 
yBuilder.make[Int]) 
var i = 0 
val seen = new Array[Boolean](dstPart.numPartitions) 
while (i < srcIds.length) { 
var j = dstPtrs(i) 
ju.Arrays.fill(seen, false) 
while (j < dstPtrs(i + 1)) ( 
val dstBlockId = encoder .blockId(dstEncodedIndices(j)) 
if (!seen(dstBlockId)) { 
activelds(dstBlockId) += i 
seen(dstBlockId) = true 


activelds.map { x => 
x.result() 


j 
}.setName(prefix + "OutBlocks") 


.persist(storageLevel) 


这 段 代码 中 ， inBlocks 表示 用 户 的 输入 分 区 块 ， 格 式 为 (MPP Rid? (不 
重复 的 用 户 id 集 ， 用 户 位 置 偏 移 集 ， 商 品 id 集 对 应 的 编码 集 ， 打 分 集 ) ) 。 
activeIds 表示 商品 分 区 中 涉及 的 用 户 id 集 ， 也 即 上 文 所 说 的 需要 发 送 给 确定 的 
商品 分 区 的 用 户 信 息 。 activelds 是 一 个 二 维 数 组 ， 第 一 维 表示 分 区 ， 第 二 维 表 
示 用 户 id 集 。 用 户 outBlocks 的 最 终 格式 是 (用户 分 区 id， OutBlocks) ° 


过 用 户 的 OutBlock 把 用 户 信息 发 给 商品 分 区 ， 然 后 结合 商品 
的 InBlock 信息 构建 最 小 二 乘 问题 ， 我 们 就 可 以 借 此 解 得 商品 的 极 小 解 。 反 之 ， 
通过 商品 OutBlock 把 商品 信息 发 送 给 用 户 分 区 ， 然 后 结合 用 户 的 InBlock 2 
构建 最 小 二 乘 问题 ， 我 们 就 可 以 解 得 用 户 解 。 第 (6) 步 会 详细 介绍 如 何 构建 
二 乘 。 


e (5) 初始 化 用 户 特 征 和 矩阵 和 商品 特征 矩阵。 


交换 最 小 二 乘 算 法 是 分 别 国 定 用 户 特征 矩阵 和 商品 特征 矩阵 来 交替 计算 下 一 次 
ea 十 下 面 的 代码 初始 化 第 一 次 迭代 的 特征 死 
阵 。 


var userFactors = initialize(userInBlocks, rank, seedGen.nextLon 


g()) 


var itemFactors - initialize(itemInBlocks, rank, seedGen.nextLon 


g()) 


初始 化 后 的 userFactors 的 格式 是 (HP 2 Eid: | , 
其 中 factors 是 一 个 二 维 数 组 ， 第 一 维 的 长 度 是 用 户 数 ， 第 二 维 的 长 度 
是 rank 数 。 初 始 化 的 值 是 异 或 随机 数 的 F 范 式 。 itemFactors 的 初始 化 与 此 类 
似 。 


e (6) 利用 inblock 和 outblock 信 息 构建 最 小 二 乘 。 


构建 最 小 二 乘 的 方法 是 在 computeFactors 方法 中 实现 的 。 我 们 以 商 
oe inblock 信息 结合 用 户 outblock 信息 构建 最 小 二 乘 为 例 来 说 明 这 个 过 程 。 代 
码 首先 用 用 户 outblock 与 userFactor 进行 join 操作 ， 然 后 以 商品 分 
区 id A key 进行 分 组 。 每 一 个 商品 分 区 包含 一 组 所 需 的 用 户 分 区 及 其 对 应 的 用 
户 factor 信息 ， 格 式 即 (用 户 分 区 id 集 ， 用 户 分 Eu 的 factor 集 ) 。 紧 接着 ， 
用 商品 inblock 信息 与 merged 进行 join 操作 ， 得 到 商品 分 区 所 需要 的 所 有 信 
息 ， 即 (商品 jnblock， (用 户 分 区 id 集 ， 用 户 分 区 对 应 的 factor 集 ) ) 。 有 了 这 些 
信息 ， 构 建 最 小 二 乘 的 数据 就 齐全 了 。 详 细 代码 如 下 


val srcOut = srcOutBlocks.join(srcFactorBlocks).flatMap { 
case (srcBlockId, (srcOutBlock, srcFactors)) => 
srcOutBlock.view.zipWithIndex.map { case (activelndices, dst 
BlockId) => 
(dstBlockId, (srcBlockId, activeIndices.map(idx => srcFact 
ors(idx)))) 
} 


} 
val merged = srcOut.groupByKey(new ALSPartitioner(dstInBlocks.pa 


rtitions.length) ) 
dstInBlocks.join(merged) 


我 们 知道 求解 商品 值 时 ， 我 们 需要 通过 所 有 和 商品 关联 的 用 户 向 量 信息 来 构建 
最 小 二 乘 问题 。 这 里 有 两 个 选择 ， 第 一 是 扫 一 遍 InBlock 信息 ， 同 时 对 所 有 的 产 
品 构建 对 应 的 最 小 二 乘 问题 ; 第 二 是 对 于 每 一 个 产品 ， 扫 描 InBlock 人 和 信息， 构建 
并 求解 其 对 应 的 最 小 二 乘 问题 。 第 一 种 方式 复杂 度 较 高 ， 具 体 的 复杂 度 计 算 在 此 不 
作 推 导 。 spark 选取 第 二 种 方法 求解 最 小 二 乘 问 题 ， 同 时 也 做 了 一 些 优化 。 做 优 
化 的 原因 是 二 种 方法 针对 每 个 商品 ， 都 会 扫描 一 遍 InBlock 信息 ， 这 会 浪费 较 多 
时 间 ， 为 此 ， 将 InBlock 按照 商品 id 进行 排序 (前文 已 经 提 到 过 ) ， 我 们 通过 
一 次 扫描 就 可 以 创建 所 有 的 最 小 二 乘 问 题 并 求解 。 构建 代 码 如 下 所 示 : 


while (j < dstIds.length) { 
ls.reset() 
var i = srcPtrs(j) 
var numExplicits - 0 
while (i < srcPtrs(j + 1)) ( 
val encoded - srcEncodedIndices(i) 
val blockId = srcEncoder.blockId(encoded) 
val localIndex = srcEncoder.localIndex(encoded) 
val srcFactor = sortedSrcFactors(blockrid)(localIndex) 
val rating - ratings(i) 
ls.add(srcFactor, rating) 
numExplicits += 1 
it=1 
} 
dstFactors(j) = solver.solve(ls, numExplicits * regParam) 
yes d 


到 了 这 一 步 ， 构 建 显 式 反馈 算法 的 最 小 二 乘 就 结束 了 。 隐 式 反馈 算法 的 实现 与 
此 类 似 ， 不 同 的 地 方 是 它 将 YtY yee (可 以 参考 文献 【1】 了 解 更 多 
信息 ) ， 而 不 用 在 每 次 迭代 中 都 计算 o 代码 如 下 


协同 过 滤 


// 在 循环 之 外 计算 
val YtY = if (implicitPrefs) Some(computeYtY(srcFactorBlocks, 
nk)) else None 


// 在 每 个 循环 内 
if (implicitPrefs) { 
ls.merge(YtY.get) 


} 
if (implicitPrefs) { 


// Extension to the original paper to handle b < ©. confidence 


is a function of |b| 


// instead so that it is never negative. ci is confidence - 1. 


val c1 = alpha * math.abs(rating) 


// For rating <= 0, the corresponding preference is ©. So the 


term below is only added 


// for rating > ©. Because YtY is already added, we need to ad 


just the scaling here. 
if (rating > 0) { 
numExplicits += 1 
ls.add(srcFactor, (ci + 1.0) / c1, c1) 


后 面 的 问题 就 如 何 求解 最 小 二 乘 了 。 我 们 会 在 最 优化 章节 介绍 spark 版 本 的 


NNLS 。 
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分 类 与 回归 


spark.mllib 提供 了 多 种 方法 用 于 用 于 二 分 类 、 多 分 类 以 及 回归 分 析 。 FR 
介绍 了 每 种 问题 类 型 支持 的 算法 。 


NES 支持 的 方法 


线性 SVMs、 逻 辑 回 归 、 决 策 树 、 随 机 森林 、 梯 度 增强 树 、 材 素 贝 


"Hi 
多 分 类 逻辑 回归 、 决 策 树 、 随 机 森林 、 朴 素 贝 叶 其 
回归 线性 最 小 二 乘 、 决 策 树 、 随 机 森林 、 梯 度 增 强 树 、 保 序 回 上 


点 击 链接 ， 了 解 具体 的 章法 实现 。 


e 分 类 和 回归 

o 线性 模型 
m SVMSs( 支 持 向 量 机 ) 
m 3v LU 
m 线性 回归 

o 朴素 贝 叶 斯 

o 决策 树 

o 组 合 树 
m 随机 森林 
m 梯度 提升 树 

o 保 序 回归 


线性 模型 


数字 描述 


许多 标准 的 机 器 学 习 算 法 可 以 归结 为 凸 优化 问题 。 例 如 ， 找 到 丁 函 数 f 的 一 
个 极 小 值 的 任务 ， 这 个 廿 函数 依赖 于 可 变 向 量 w (在 spark 源码 中 ， 一 般 表 示 
为 weights ) 。 形 式 上 ， 我 们 可 以 将 其 当 作 一 个 西 优化 问题 $fmin) {wjf(w)$。 它 
的 目标 函数 可 以 表示 为 如 下 公式 (1) : 


1 n 
f(w) 2 一 AR(w) + -> L(w; Xi, Vi) 
i-1 


上 式 中 ， 向 量 x 表示 训练 数据 集 ， y 表示 它 相 应 的 标签 ， 也 是 我 们 想 预 测 
的 值 。 如 果 L(wix,y) 可 以 表示 为 ${w}A(T}x$ 和 y 的 函数 ， 我 们 称 这 个 方法 为 线 
性 的 。 spark.mllib 中 的 几 种 分 类 算法 和 回归 算法 可 以 归 为 这 一 类 。 


目标 函数 fF 包含 两 部 分 : 正则 化 ( regularizer )， 用 于 控制 模型 的 复杂 度 
损失 函数 ， 用 于 度量 模型 的 误差 。 损 失 函 数 L(w;.) 是 一 个 典型 的 基于 w ei 
数 。 国 定 的 正则 化 参数 gamma 定义 了 两 种 目标 的 权衡 ( trade-off ) ,这 两 个 目 
标 分 别 是 最 小 化 损失 (训练 误差 ) 以 及 最 小 化 模型 复杂 度 ( 为 了 避免 过 拟 合 )。 


1.1 损失 函数 
下 面 介绍 spark.mllib 中 提供 的 几 种 损失 函数 以 及 它们 的 梯度 或 子 梯度 
( sub-gradient )。 
e hinge loss 
hinge 损失 的 损失 函数 L(w;x,y) 以 及 梯度 分 别 是 : 


max{0,1 — yw’ x},y € {-1,+1} 


T x,if yw?x « 1 
0 otherwise 


e logistic loss 
logistic 损失 的 损失 有 函数 L(w;x,y) 以 及 梯度 分 别 是 : 


log(1 + exp(—yw’x)), y e {—1, +1} 


1 
"— — 
»( 1 + exp(—yw?x) p 


e squared loss 


squared 损失 的 损失 函数 L(w;x,y) 以 及 梯度 分 别 是 : 


1 
3 (w'x—y),yER 


(w?x — y).x 


1.2 正则 化 


正则 化 的 目的 是 为 了 简化 模型 及 防止 过 拟 合 。 spark.mllib 中 提供 了 下 面 的 


正则 化 方法 。 


问题 规则 化 函数 R(w) 
Zero 0 
L2 如 下 公式 (1) 
L1 如 下 公式 (2) 
elastic net alpha L1 +(1-alpha) L2 alpha sign(w) * (1-alpha) w 
= lwil (1) 


lwll (2) 


在 上 面 的 表格 中 ， sign(w) 是 一 个 向 量 ， 它 由 w 中 的 所 有 实体 的 信号 
量 (+1, -1) 组 成 。 L2 问题 往往 比 L1 问题 更 容易 解决 ， 那 是 因为 L2 是 平滑 
的 。 然 而 ，L1 可 以 使 权重 矩阵 更 稀疏 ， 从 而 构建 更 小 以 及 更 可 判断 的 模型 ， 模 
型 的 可 判断 性 在 特征 选择 中 很 有 用 。 


2 分 类 

So 目的 就 是 将 数据 切 分 为 不 同 的 类 别 。 最 一 般 的 分 类 类 型 是 二 分 类 ， 即 有 
两 个 类 别 ， 通 常 称 为 正和 负 。 如 果 类 别 数 超过 两 个 ， 我 们 称 之 为 多 分 
Ko spark.ml 提供 了 两 种 线性 方法 用 于 分 类 : 线性 支持 向 量 机 以 及 逻辑 回归 。 
线性 支持 向 量 机 仅仅 支持 二 分 类 ， 逻 辑 回归 既 支 持 二 分 类 也 支持 多 分 类 。 对 所 有 的 
方法 ， spark.ml 支持 Li 和 L2 正则 化 。 分 类 算法 的 详细 介绍 见 下 面 的 链接 。 


。SVMs( 支 持 向 量 机 ) 
e iv ity 
e Au 


线性 支持 向 量 机 


线性 支持 向 量 机 是 一 个 用 于 大 规模 分 类 任务 的 标准 方法 。 它 的 目标 函数 线性 模 
型 中 的 公式 (1) 。 它 的 损失 函数 是 海 格 损失 ， 如 下 所 示 


L(w;x,y) := max{0, 1 yw? x}. 
默认 情况 下 ， 线 性 支持 向 量 机 训练 时 使 用 L2 正则 化 。 线 性 支持 向 量 机 输出 一 
个 SVM 模型 。 给 定 一 个 新 的 数据 点 x ， 模 型 通过 w^Tx 的 值 预测 ， 当 这 个 值 大 
于 0 时 ， 输 出 为 正 ， 否 则 输出 为 负 。 
线性 支持 向 量 机 并 不 需要 核 吕 数 ， 要 详细 了 解 支 持 向 量 机 ， 请 参考 文献 
[1] ° 


2 源码 分 析 


2.1 实例 


import org.apache.spark.mllib.classification.{SVMModel, SVMWithS 
GD} 
import org.apache.spark.mllib.evaluation.BinaryClassificationMet 
rics 
import org.apache.spark.mllib.util.MLUtils 
// Load training data in LIBSVM format. 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample libsvm. 
data txt) 
// Split data into training (60%) and test (40%). 
val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L) 
val training = splits(0).cache() 
val test = splits(1) 
// Run training algorithm to build the model 
val numIterations = 100 
val model = SVMWithSGD.train(training, numIterations) 
// Clear the default threshold. 
model.clearThreshold() 
// Compute raw scores on the test set. 
val scoreAndLabels = test.map { point => 
val score - model.predict(point.features) 
(score, point.label) 
j 
// Get evaluation metrics. 
val metrics - new BinaryClassificationMetrics(scoreAndLabels) 
val auROC = metrics.areaUnderROC( ) 
println("Area under ROC = " + auROC) 


2.2 训练 


和 逻辑 回归 一 样 ， 训 练 过 程 均 使 用 GeneralizedLinearModel 中 的 run ÒI 
练 ， 只 是 训练 使 用 的 Gradient 和 Updater 不 同 。 在 线性 支持 向 量 机 中 ， 使 
用 HingeGradient 计算 梯度 ， 使 用 SquaredL2Updater 进行 更 新 。 它 的 实现 过 
程 分 为 4 步 。 参 加 人 逻辑 回归 了 解 这 五 步 的 详细 情况 。 我 们 只 需要 了 
解 HingeGradient 和 SquaredL2Updater 的 实现 。 


class HingeGradient extends Gradient { 
Override def compute(data: Vector, label: Double, weights: Vec 
tor): (Vector, Double) = { 
val dotProduct = dot(data, weights) 
// 我 们 的 损失 函数 是 max(0, 1 - (2y - 1) (f w(x))) 
// 所 以 梯度 是 -(2y - 1)*x 
val labelScaled - 2 * label - 1.0 
if (1.0 » labelScaled * dotProduct) ( 
val gradient - data.copy 
scal(-labelScaled, gradient) 
(gradient, 1.0 - labelScaled * dotProduct) 
) else { 
(Vectors.sparse(weights.size, Array.empty, Array.empty), 0 
=) 


override def compute( 

data: Vector, 
label: Double, 
weights: Vector, 
cumGradient: Vector): Double = ( 

val dotProduct = dot(data, weights) 

// 我 们 的 损失 函数 是 max(0, 1 - (2y - 1) (f w(x))) 

// 所 以 梯度 是 -(2y - 1)*x 

val labelScaled - 2 * label - 1.0 

if (1.0 » labelScaled * dotProduct) ( 
//cumGradient -- labelScaled * data 
axpy(-labelScaled, data, cumGradient) 
// 损 失 值 
1.0 - labelScaled * dotProduct 

} else { 
0.0 


线性 支持 向 量 机 的 训练 使 用 L2 正则 化 方法 。 


class SquaredL2Updater extends Updater { 
override def compute( 
weightsOld: Vector, 
gradient: Vector, 
stepSize: Double, 


iter: Int, 
regParam: Double): (Vector, Double) = { 
// w' =w - thisIterStepSize * (gradient + regParam * w) 
// w' = (1 - thisIterStepSize * regParam) * w - thisIterStep 


Slze* PME 
// 表 示 步 长 ， 即 负 梯 度 方 向 的 大 小 
val Mor ee = stepSize / math.sqrt(iter) 
val brzweights: BV[Double] - weightsOld.toBreeze.toDenseVect 


or 
// 正 则 化 ，brzweights 每 行 数据 均 乘 以 (1.0 - thisIterStepSize * regP 

aram) 
brzWeights :*= (1.0 - thisIterStepSize * regParam) 
//y += x * a» PPbrzWeights -= gradient * thisInterStepSize 
brzAxpy(-thisIterStepSize, gradient.toBreeze, brzWeights) 
//X 0146 | |w| |. 2 
val norm = brzNorm(brzweights, 2.0) 
(Vectors.fromBreeze(brzWeights), 0.5 * regParam * norm * nor 

m) 

} 
} 


该 函数 的 实现 规则 是 


w' =w - thisIterStepSize * (gradient + regParam * w) 
w' = (1 - thisIterStepSize * regParam) * w - thisIterStepSize * 
gradient 


这 里 thisIterStepSize 表示 参数 沿 负 梯 度 方向 改变 的 速率 ， 它 随 着 迭代 次 
数 的 增多 而 减 小 。 


2.3 预测 


override protected def predictPoint( 
dataMatrix: Vector, 
weightMatrix: Vector, 
intercept: Double) = { 
/ /W^TX 
val margin - weightMatrix.toBreeze.dot(dataMatrix.toBreeze) 
* intercept 
threshold match ( 
case Some(t) => if (margin > t) 1.0 else 0.0 
case None => margin 


> 


参考 文献 


【1】 支 持 向 量 机 通俗 导论 (理解 SVM 的 三 层 境 界 ) 
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1 二 元 逻辑 回归 


回归 是 一 种 很 容易 理解 的 模型 ， 就 相当 于 y=f(x) ， 表 明 自 变量 x SAE 
È y 的 关系 。 最 常见 问题 如 医生 治 病 时 的 望 、 闻 、 问 、 切 ， 之 后 判定 病人 是 否 
病 或 生 了 什么 病 ， 其 中 的 望 、 闻 、 问 、 切 就 是 获取 的 自 变量 x ， 即 特征 数据 ， 判 
断 是 否 生病 就 相当 于 获取 因 变 量 y ， 即 预测 分 类 。 最 简单 的 回归 是 线性 回归 ， 但 
是 线性 回归 的 鲁 棒 性 很 差 。 


逻辑 回归 是 一 种 减 小 预测 范围 ， 将 预测 值 限定 为 [0,1] 间 的 一 种 回归 模型 ， 
其 回归 方程 与 回归 曲线 如 下 图 所 示 。 逻 辑 曲 线 在 z=0 时 ， 十 分 敏感 ， 
在 z>>0 或 z««0 时 ， 都 不 敏感 。 





逻辑 回归 其 实 是 在 线性 回归 的 基础 上 ， 套 用 了 一 个 逻辑 函数 。 上 图 的 g(z) 就 
是 这 个 逻辑 函数 (或 称 为 Sigmoid 函数 ) 。 下 面 左 图 是 一 个 线性 的 决策 边界 ， 右 图 
是 非 线 性 的 决策 边界 。 


逻辑 回归 





对 于 线性 边界 的 情况 ， 边 界 形式 可 以 归纳 为 如 下 公式 (1)/ 


0,* 0x, *,...,*0,x, = 0x =0"x 


i=l 


因此 我 们 可 以 构造 预测 函数 为 如 下 公式 (2): 





h,(x) = g(0' x) = 


ice 


该 预测 函数 表示 分 类 结果 为 1 时 的 概率 。 因 此 对 于 输入 点 x ， 分 类 结果 为 类 别 
1 和 类 别 0 的 概率 分 别 为 如 下 公式 (3) : 


P(y = 1|x; 9) = hg(x) 
P(y = 0|x;0) = 1 — họ (x) 


对 于 训练 数据 集 ， 特 征 数 据 x={x1, x2, . , xm} 和 对 应 的 分 类 数据 y={y1, 
Y2, . , ym) 。 构 建 逻 辑 回归 模型 f ， 了 最 典型 的 构建 方法 便 是 应 用 极 大 似 然 估 
计 。 对 公式 (3) 取 极 大 似 然 函数 ， 可 以 得 到 如 下 的 公式 (4): 


16) - T [PG; x)=] [0,6 -hy 


再 对 公式 (4) 取 对 数 ， 可 得 到 公式 (5) : 


71 


1(@) =log L(A) = 6 log ^, (x,) * (1— y,)log(1 — A, (x, ))) 


最 大 似 然 估计 就 是 求 使 1 取 最 大 值 时 的 theta » MLlib 中 提供 了 两 种 方法 
来 求 这 个 参数 ， 分 别 是 梯度 下 降 法 和 |L-BFGS。 


2 多 元 逻辑 回归 


二 元 逻辑 回归 可 以 一 般 化 为 多 元 逻辑 回归 用 来 训练 和 预测 多 分 类 问题 。 对 于 多 
分 类 问题 ， 尊 法 将 会 训练 出 一 个 多 元 逻辑 回归 模型 CUS K-1 个 二 元 回归 模 
型 。 给 定 一 个 数据 点 ，K-1 个 模型 都 会 运行 ， 概 率 最 大 的 类 别 将 会 被 选 为 预测 类 
别 o 


对 于 输入 点 x ， 分 类 结果 为 各 类 别 的 概率 分 别 为 如 下 公式 (6)， 其 中 k 表示 
类 别 个 数 。 


1 
= 
p(y = 0lx;w) - c ki gx 
E 
= 1|x; w) = 一 一 
ply | ) 1 E ge. 
(y- k- ilz w) = — m 

p(y = k- 1|x; w) = —— 
i+ye™ 


对 于 k 类 的 多 分 类 问题 ， 模 型 的 权重 Ww = (wi, w2, ..., w{K-1}) € 
一 个 矩阵 ， 如 果 添 加 截 距 ， 纸 阵 的 维度 为 (K-1) * (N41) > GRA (K-1) * 
N 。 单 个 样本 的 目标 沟 数 的 损失 函数 可 以 写成 如 下 公式 (7) 的 形式 。 


\(w, x) = —logp(ylx,w) = —a,logp(y = 0|x;w) — (1 -a,)logp(y|x; w) 


k-1 k-1 
= og: + 7 en x (1 = Gy) xWy_4 = eg 十 2, emen] = (1 = ay mar gin Sy-1 
i=1 i=1 


E. Lify=0 
‘la, =0,ify #0 


对 损失 函数 求 一 阶 导 数 ， 我 们 可 以 得 到 下 面 的 公式 (8) 


= multif ier, * x; 


pl(w, x) emargin Si 
Hug qo eee 


PWij 1 =2 ey emargin Si 
6,;=Lifi=j 
ó,, =0,if ij 


根据 上 面 的 公式 ， 如 果 某 些 margin 8948 X 1709.78 > De VA A 3E 
辑 函 数 的 计算 会 出 现 算术 溢出 ( arithmetic overflow ) 的 情况 。 这 个 问题 发 生 在 
有 离 群 点 远离 超 平面 的 情况 下 。 幸运 的 是 ， 当 max(margins) = maxMargin > 
o 时 ， 损 失 函 数 可 以 重 写 为 如 下 公式 (9) 的 形式 。 


k-1 
l(w, x) = log ( + > ee -(1- a, margin Sys 
i=1 
k-1 
ae log(e~™axMargin +) emargin ————— E a maxMargin = (1 = a, margin M 
i=1 


= log(1 + sum) + maxMargin - (1 — a, Jmar gin d 


同 理 ， multiplier 也 可 以 重 写 为 如 下 公式 (10) 的 形式 。 


emargin Sj 


multifier = = (1 = Oy )Óy ia 


k-i pmargins; 
ELIO aem 
e (margin s; -maxMargin) 
CENA NN RR RN OT, 
—maxMargin k-1 margin s; -maxMargin ( y/^"yitl 
e g TED IM gin si g 
e (margin s; -maxMargin) 


zi 1+sum i G i y)Óy is 
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e 优点 : 计算 代价 低 ， 速 度 快 ， 容 易 理 解 和 实现 。 
e 缺点 ， 分 类 和 回归 的 精度 不 高 


o 


实例 


下 面 的 例子 展示 了 如 何 使 用 逻辑 回归 。 


import org.apache.spark.SparkContext 
import org.apache.spark.mllib.classification. {LogisticRegression 
WithLBFGS, LogisticRegressionModel} 
import org.apache.spark.mllib.evaluation.MulticlassMetrics 
import org.apache.spark.mllib.regression.LabeledPoint 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.util.MLUtils 
// 加 载 训 练 数 据 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_ 
data to) 
// "oy 44 > training (60%) and test (40%). 
val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L) 
val training = splits(0).cache() 
val test = splits(1) 
// 训练 模型 
val model = new LogisticRegressionWithLBFGS() 
.setNumClasses(10) 
.run(training) 
// Compute raw scores on the test set. 
val predictionAndLabels - test.map ( case LabeledPoint(label, fe 
atures) => 
val prediction = model.predict(features) 
(prediction, label) 
} 
// Get evaluation metrics. 
val metrics = new MulticlassMetrics(predictionAndLabels) 
val precision = metrics.precision 
println("Precision = " + precision) 
// 保存 和 加 载 模型 
model.save(sc, "myModelPath" ) 
val sameModel = LogisticRegressionModel.load(sc, "myModelPath" ) 


5 源码 分 析 


5.1 训练 模型 


如 上 所 述 ， 在 MLlib 中 ， 分 别 使 用 了 梯度 下 降 法 和 L-BFGS 实现 逻辑 回归 参 
数 的 计 莫 。 这 两 个 算法 的 实现 我 们 会 在 最 优化 章节 介绍 ， 这 里 我 们 介绍 公共 的 部 
分 。 

LogisticRegressionWithLBFGS 和 LogisticRegressionWithSGD 的 入 口 
函数 均 是 GeneralizedLinearAlgorithm.run ， 下 面 详 细 分 析 该 方法 。 


def run(input: RDD[LabeledPoint]): M = ( 
if (numFeatures < 0) { 


numFeatures = input.map(_.features.size).first() 


} 
val initialWeights = { 
If (numOfLinearPredictor == 1) { 
Vectors.zeros(numFeatures ) 
} else if (addIntercept) { 
Vectors.zeros((numFeatures + 1) * numOfLinearPredict 
or) 
) else { 
Vectors.zeros(numFeatures * numOfLinearPredictor) 


j 


run(input, initialWeights) 


上 面 的 代码 初始 化 权重 向 量 ， 向 量 的 值 均 初 始 化 为 0。 需 要 注意 的 
是 ， addIntercept 表示 是 否 添加 截 距 ( Intercept ， 指 函数 图 形 与 坐标 的 交点 
到 原点 的 距离 )， 默 认 是 不 添加 的 。 numOfLinearPredictor 表示 二 元 逻辑 回归 模 
型 的 个 数 。 我 们 重点 看 run(input, initialWeights) 的 实现 。 它 的 实现 分 四 
步 。 


5.1.1 根据 提供 的 参数 缩放 特征 并 添加 截 距 


val scaler = if (useFeatureScaling) { 
new StandardScaler(withStd = true, withMean = false).fit(i 
nput.map(_.features) ) 
} else { 
null 
} 
val data = 
if (addIntercept) { 
if (useFeatureScaling) { 
input.map(lp => (lp.label, appendBias(scaler.transform 
(lp.features)))).cache() 
} else { 
input.map(lp => (lp.label, appendBias(lp.features))).c 
ache() 
} 
} else { 
if (useFeatureScaling) { 
input.map(lp => (lp.label, scaler.transform(lp.feature 
s))).cache() 
} else { 
input.map(lp => (lp.label, lp.features)) 


} 
val initialWeightsWithIntercept = if (addIntercept && numOfLinea 
rPredictor == 1) { 

appendBias(initialWeights) 


} else { 
/** If "numOfLinearPredictor > 1°, initialWeights already 
contains intercepts. */ 
initialWeights 
} 


TE BANC ALP > WIR A R TH GH BE E 0 RI condition 
number )， 缩 放 变 量 经 常 可 以 启发 式 地 减少 这 些 条 件数 ， 提 高 收敛 速度 。 不 减少 条 
件数 ， 一 些 混合 有 不 同 范围 列 的 数据 集 可 能 不 能 收 贫 。 在 这 里 使 
用 StandardScaler 将 数据 集 的 特征 进行 缩放 。 详 细 信 息 请 
看 StandardScaler。 appendBias 方法 很 简单 ， 就 是 在 每 个 向 量 后 面 加 一 个 值 为 1 
的 项 。 


def appendBias(vector: Vector): Vector = { 
vector match { 
case dv: DenseVector => 
val inputValues = dv.values 
val inputLength = inputValues.length 
val outputValues = Array.ofDim[Double](inputLength + 1) 
System.arraycopy(inputValues, ©, outputValues, ©, inputL 
ength) 
outputValues(inputLength) - 1.0 
Vectors.dense(outputValues) 
case sv: SparseVector => 
val inputValues - sv.values 
val inputIndices = sv.indices 
val inputValuesLength - inputValues.length 
val dim = sv.size 
val outputValues - Array.ofDim[Double](inputValuesLength 


dT) 

val outputIndices = Array.ofDim[Int](inputValuesLength + 
1) 

System.arraycopy(inputValues, 9, outputValues, 0, inputV 
aluesLength) 


System.arraycopy(inputIndices, ©, outputIndices, 0, inpu 
tValuesLength) 
outputValues(inputValuesLength) = 1.0 
outputIndices(inputValuesLength) = dim 
Vectors.sparse(dim + 1, outputIndices, outputValues) 
case _ => throw new IllegalArgumentException(s"Do not supp 
ort vector type ${vector.getClass}") 


} 
E 7 HI 


5.1.2 使 用 最 优化 算法 计算 最 终 的 权重 值 


val weightsWithIntercept = optimizer.optimize(data, initialWeigh 
tswithIntercept ) 


有 梯度 下 降 算 法 和 L-BFGS 两 种 算法 来 计算 最 终 的 权重 值 ， 查 看 棕 度 下 降 法 和 
L-BFGS 了 解 详 细 实 现 。 这 两 种 算法 均 使 用 Gradient 的 实现 类 计算 梯度 ， 使 
用 Updater 的 实现 类 更 新 参数 。 在 LogisticRegressionwithSGD 和 
LogisticRegressionWithLBFGS 中 ， 它 们 均 使 用 LogisticGradient 实现 类 
计算 梯度 ， 使 用 SquaredL2Updater 实现 类 更 新 参数 。 


// 在 GradientDescent 中 

private val gradient = new LogisticGradient() 

private val updater = new SquaredL2Updater() 

override val optimizer = new GradientDescent(gradient, updater) 
.setStepSize(stepSize) 
.setNumIterations(numIterations) 
. setRegParam(regParam) 
.setMiniBatchFraction(miniBatchFraction) 

// &LBFGS } 

override val optimizer - new LBFGS(new LogisticGradient, new Squ 

aredL2Updater ) 


下 面 将 详细 介绍 LogisticGradient 的 实现 和 SquaredL2Updater 的 实现 。 
e LogisticGradient 


LogisticGradient 中 使 用 compute 方法 计算 梯度 。 计 算 分 为 两 种 情况 ， 即 
二 元 逻辑 回归 的 情况 和 多 元 逻辑 回归 的 情况 。 虽 然 多 元 逻辑 回归 也 可 以 实现 二 元 分 
类 ， 但 是 为 了 效率 ， compute 方法 仍然 实现 了 一 个 二 元 逻辑 回归 的 版 本 。 


val margin = -1.0 * dot(data, weights) 
val multiplier = (1.0 / (1.0 + math.exp(margin))) - label 
//y += a * x> F'cumGradient += multiplier * data 
axpy(multiplier, data, cumGradient) 
if (label » 0) ( 
// The following is equivalent to log(1 + exp(margin)) but m 
ore numerically stable. 
MLUtils.logipExp(margin) 
} else { 
MLUtils.logipExp(margin) - margin 


这 里 的 multiplier 就 是 上 文 的 公式 (2)。 axpy 方法 用 于 计算 梯度 ， 这 里 表 
的 意思 是 h(x) * x 。 下 面 是 多 元 逻辑 回归 的 实现 方法 。 


// 权 重 
val weightsArray = weights match { 
case dv: DenseVector => dv.values 
case _ => 
throw new IllegalArgumentException 
} 
// 梯 度 
val cumGradientArray = cumGradient match { 
case dv: DenseVector => dv.values 
case _ => 
throw new IllegalArgumentException 
} 
// 计算 所 有 类 别 中 最 大 的 margin 
var marginY = 0.0 
var maxMargin = Double.NegativeInfinity 
var maxMarginIndex = 0 
val margins = Array.tabulate(numClasses - 1) { i => 
var margin = 0.0 
data.foreachActive { (index, value) => 


if (value != 0.0) margin += value * weightsArray((i * da 
taSize) + index) 
} 
if (i == label.toInt - 1) marginY = margin 


if (margin > maxMargin) { 
maxMargin = margin 
maxMarginIndex = i 


margin 
/V/ 计 算 Sum， 保 证 每 个 nargin 都 小 于 9， 避免 出 现 算 术 溢 出 的 情况 


val sum = { 
var temp = 0.0 
if (maxMargin > 0) { 
for (i «- 0 until numClasses - 1) { 
margins(i) -- maxMargin 
if (i == maxMarginIndex) { 
temp += math.exp(-maxMargin) 


} else { 
temp += math.exp(margins(i)) 


j 
) else { 


for (i <- 0 until numClasses - 1) { 
temp += math.exp(margins(i)) 


jy 
temp 


j 
/ / it &multiplier3tirX A 
for (i «- 0 until numClasses - 1) ( 
val multiplier = math.exp(margins(i)) / (sum + 1.0) - { 
if (label != 0.0 && label == i+ 1) 1.0 else 0.0 


} 
data.foreachActive { (index, value) => 
if (value != 0.0) cumGradientArray(i * dataSize + index 

) += multiplier * value 

} 
} 
// TR R BH, 
val loss = if (label > 0.0) math.logip(sum) - marginY else math. 
logip(sum) 


if (maxMargin > 0) { 
loss + maxMargin 
} else { 
loss 


e SquaredL2Updater 


class SquaredL2Updater extends Updater { 
override def compute( 
weightsOld: Vector, 
gradient: Vector, 
stepSize: Double, 


iter: Int, 
regParam: Double): (Vector, Double) = { 
// w' =w - thisIterStepSize * (gradient + regParam * w) 
// w' = (1 - thisIterStepSize * regParam) * w - thisIterStep 


Slze* PME 

// 表 示 步 长 ， 即 负 梯 度 方 向 的 大 小 

val Mor ee = stepSize / math.sqrt(iter) 

val brzweights: BV[Double] - weightsOld.toBreeze.toDenseVect 
or 

// 正 则 化 ，brzweights 每 行 数据 均 乘 以 (1.0 - thisIterStepSize * regP 
aram) 

brzWeights :*= (1.0 - thisIterStepSize * regParam) 

//y += x * a» PPbrzWeights -= gradient * thisInterStepSize 

brzAxpy(-thisIterStepSize, gradient.toBreeze, brzWeights) 

//X 0146 | |w| |. 2 

val norm = brzNorm(brzweights, 2.0) 

(Vectors.fromBreeze(brzWeights), 0.5 * regParam * norm * nor 


六 函数 的 实现 规则 是 


VU 


w' =w - thisIterStepSize * (gradient + regParam * w) 
w' = (1 - thisIterStepSize * regParam) * w - thisIterStepSize * 
gradient 


这 里 thisIterStepSize TAROS f 4673 Zr MARR c DDR GANG 
数 的 增多 而 减 小 。 


5.1.3 对 最 终 的 权重 值 进 行 后 处 理 


val intercept = if (addIntercept && numOfLinearPredictor == 1) { 
weightsWithIntercept(weightswithIntercept.size - 1) 
) else { 
0.0 
} 
var weights = if (addIntercept && numOfLinearPredictor == 1) { 
Vectors.dense(weightsWithIntercept.toArray.slice(0, weight 
sWithIntercept.size - 1)) 
) else { 
weightsWithIntercept 


该 段 代 码 获 得 了 截 距 ( intercept ) 以 及 最 终 的 权重 值 。 由 于 截 距 
( intercept ) 和 权重 是 在 收缩 的 空间 进行 训练 的 ， 所 以 我 们 需要 再 把 它们 转换 
到 原始 的 空间 。 数 学 知识 告诉 我 们 ， 如 果 我 们 仅仅 执行 标准 化 而 没有 减 去 均值 ， 
BP withStd = true, withMean = false ， 那 么 截 距 ( intercept ) 的 值 并 不 
会 发 送 改 变 。 所 以 下 面 的 代码 仅仅 处 理 权 重 向 量 。 


if (useFeatureScaling) ( 


if (numOfLinearPredictor -- 1) ( 
weights - scaler.transform(weights) 
) else ( 
var 1 = 0 


val n = weights.size / numOfLinearPredictor 
val weightsArray = weights.toArray 
while (i < numOfLinearPredictor) { 
//Att&intercept 
val start = i * n 
val end = (i + 1) * n - { if (addIntercept) 1 else 0 } 
val partialWeightsArray = scaler.transform( 
Vectors.dense(weightsArray.slice(start, end))).toArr 
ay 
System.arraycopy(partialWeightsArray, ©, weightsArray, 
start, partialWeightsArray.size) 
i += 1 
} 


weights = Vectors.dense(weightsArray ) 


5.1.4 创建 模型 


createModel(weights, intercept) 


5.2 预测 


训练 完 模 型 之 后 ， 我 们 就 可 以 通过 训练 的 模型 计算 得 到 测试 数据 的 分 类 信 
息 。 predictPoint "m 来 预测 分 类 信 E 。 它 针对 二 分 类 和 多 分 类 ， 分 别 进 行 处 


val margin = dot(weightMatrix, dataMatrix) + intercept 
val score = 1.0 / (1.0 + math.exp(-margin) ) 
threshold match { 

case Some(t) => if (score > t) 1.0 else 0.0 

case None => score 


我 们 可 以 看 到 1.0 / (1.0 + math.exp(-margin)) Me ETS] HHH 
数 即 sigmoid Až ° 


e 多 分 类 情况 


var bestClass = 0 
var maxMargin = 0.0 
val withBias = dataMatrix.size + 1 == dataWithBiasSize 


(9 until numClasses - 1).foreach { i => 
var margin = 0.0 
dataMatrix.foreachActive { (index, value) => 
if (value != 0.0) margin += value * weightsArray((i * 
datawithBiasSize) + index) 
} 
// Intercept is required to be added into margin. 
if (withBias) { 
margin += weightsArray((i * dataWithBiasSize) + dataMa 
trix.size) 
} 
if (margin > maxMargin) { 
maxMargin = margin 
bestClass =i+1 


} 
bestClass.toDouble 


该 段 代 码 计 算 并 找到 最 大 的 margin 。 如 果 maxMargin 为 负 ， 那 么 第 一 类 是 
该 数据 的 类 别 。 


逻辑 回归 


[1] 44) 27% 4 (Logistic Regression, LR) 基 础 


[2] ##e\2 
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线性 回归 


回归 问题 的 条 件 或 者 说 前 提 是 

e 1) 收集 的 数据 

e 2) 假设 的 模型 ， 即 一 个 函数 ， 这 个 函数 里 含有 未 知 的 参数 ， 通 过 学 习 ， 可 以 
估计 出 参数 。 然 后 利用 这 个 模型 去 预测 /分 类 新 的 数据 。 


1 线性 回归 的 概念 


线性 回归 假设 特征 和 结果 都 满足 线性 。 即 不 大 于 一 次 方 。 收 集 的 数据 中 ， 每 一 
个 分 量 ， 就 可 以 看 做 一 个 特征 数据 。 每 个 特征 至 少 对 应 一 个 未 知 的 和 参数。 这样 就 形 
成 了 一 个 线性 模型 函数 ， 向 量 表示 形式 : 

h,(x)=0' X 

这 个 就 是 一 个 组 合 问 题 ， 已 知 一 些 数据 ， 如 何 求 里 面 的 未 知 参 数 ， 给 出 一 个 最 
优 解 。 一 个 线性 矩阵 方程 ， 直 接 求 解 ， 很 可 能 无 法 直接 求解 。 有 唯一 解 的 数据 集 ， 
微乎其微 。 

基本 上 都 是 解 不 存在 的 超 定 方程 组 。 因 此 ， 需 要 退 一 步 ， 将 参数 求解 问题 ， 转 
化 为 来 最 小 误差 问题 ， 求 出 一 个 最 接近 的 解 ， 这 就 是 一 个 松弛 求解 。 

在 回归 问题 中 ， 线 性 最 小 二 乘 是 最 普遍 的 求 最 小 误差 的 形式 。 它 的 损失 函数 就 
是 二 乘 损 失 。 如 下 公式 (1) HR: 


1 
L(w; x, y) := 5 (wx — yy. 
根据 使 用 的 正则 化 类 型 的 不 同 ， 回归 算法 也 会 有 不 同 。 普 通 最 小 二 乘 和 线性 最 


小 二 乘 回 归 不 使 用 正则 化 方法 。 ridge 回归 使 用 L2 正则 化 ， lasso 回归 使 
用 La 正则 化 。 


2 线性 回归 源码 分 析 


2.1 实例 


import org.apache.spark.ml.regression.LinearRegression 


// 加 载 数 据 
val training = spark.read.format("libsvm") 
.load("data/mllib/sample linear regression data.txt") 


val lr = new LinearRegression() 
.setMaxIter(10) 
.sSetRegParam(0.3) 
.setElasticNetParam(0.8) 


// 训练 模型 


val lrModel = lr.fit(training) 


// 打印 线性 回归 的 系数 和 截 距 
println(s"Coefficients: ${lrModel.coefficients} Intercept: ${1rM 
odel.intercept}") 


// 打印 统计 信息 

val trainingSummary = lrModel.summary 

println(s"numIterations: ${trainingSummary.totalIterations}") 
println(s"objectiveHistory: [${trainingSummary.objectiveHistory. 
nkserang( y qe 

trainingSummary.residuals.show() 

println(s"RMSE: ${trainingSummary.rootMeanSquaredError}") 
println(s"r2: ${trainingSummary.r2}") 


2.2 代码 实现 
2.2.1 参数 配置 
根据 上 面 的 例子 ， 我 们 先 看 看 线性 回归 可 以 配置 的 参数 。 


// 正则 化 参数 ， 黑 认为 9， 对 应 于 优化 算法 中 的 lambda 
def setRegParam(value: Double): this.type = set(regParam, value) 
setDefault(regParam -> 0.0) 


// 是 否 使 用 截 距 ， 默 认 使 用 


def setFitIntercept(value: Boolean): this.type = set(fitIntercep 
t, value) 
setDefault(fitIntercept -> true) 


// 在 训练 模型 前 ， 是 否 对 训练 特征 进行 标准 化 。 默 认 使 用 。 

// 模型 的 相关 系数 总 是 会 返回 原来 的 空间 (不 是 标准 化 后 的 标准 空间 ) ， 所 以 这 个 过 
程 对 用 户 透 明 

def setStandardization(value: Boolean): this.type = set(standard 
ization, value) 

setDefault(standardization -> true) 


// ElasticNet;& e 4 X 
// B PARS > (RALZS 
M L14% 4| feL 225 1] 05 AS 
def setElasticNetParam(value: Double): this.type - set(elasticNe 


MAL » 4e L128 4d ; 当 值 在 (9,1) 之 间 时 ， 使 


tParam, value) 
setDefault(elasticNetParam -> 0.0) 


// 最 大 和 迭代 次 数 ， 默 认 是 100 
def setMaxIter(value: Int): this.type = set(maxIter, value) 
setDefault(maxIter -> 100) 


// Méx à. 
def setTol(value: Double): this.type - set(tol, value) 
setDefault(tol -» 1E-6) 


// ARENIE o RUTARE eo SHEEN HAREAL 
def setWeightCol(value: String): this.type = set(weightCol, valu 
e) 


// 最 优化 求解 方法 。 实 际 有 1-bfgs 和 带 权 最 小 三 乘 两 种 求解 方法 。 
// 当 特 征 列 数量 超过 4096 时 ， 默 认 使 用 L-bfgs 求 解 ， 否 则 使 用 带 权 最 小 三 乘 求 解 。 
def setSolver(value: String): this.type = { 
require(Set("auto", "l-bfgs", "normal").contains(value), 
s"Solver $value was not supported. Supported options: auto 
, l-bfgs, normal") 
set(solver, value) 


} 


setDefault(solver -> "auto") 


QQ 


OO 


// 设置 treeAggregate 的 深度 。 默 认 情 况 下 深度 为 2 

// 当 特征 维 度 较 大 或 者 分 区 较 多 时 ， 可 以 调 大 该 深度 

def setAggregationDepth(value: Int): this.type = set(aggregation 
Depth, value) 

setDefault(aggregationDepth -> 2) 


2.2.2 训练 模型 


train 方法 训练 模型 并 返回 LinearRegressionModel 。 方 法 的 开始 是 处 理 
数据 集 ， 生 成 需要 的 RDD 。 


// Extract the number of features before deciding optimization s 
olver. 

val numFeatures = dataset.select(col($(featuresCol))).first().ge 
tAs[Vector](9).size 

val w = if (!isDefined(weightCol) || $(weightCol).isEmpty) lit(1 
.0) else col($(weightCol)) 


val instances: RDD[Instance] - dataset.select( 
col($(labelCol)), w, col($(featuresCol))).rdd.map { 
case Row(label: Double, weight: Double, features: Vector) -» 


Instance(label, weight, features) // 标签 ， 权 重 ， 特 征 向 重 


2.2.2.1 带 权 最 小 二 乘 


当 样 本 的 特征 维度 小 于 4096 并 且 solver 为 auto 或 
者 solver 为 normal 时 ， 用 weightedLeastSquares 求解 ， 这 是 因 
为 WeightedLeastSquares 只 需要 处 理 一 次 数据 ， 求 解 效率 更 
高 。 WeightedLeastSquares 的 介绍 见 带 权 最 小 二 乘 。 


if (($(solver) == "auto" && 
numFeatures <= WeightedLeastSquares.MAX NUM FEATURES) || $(s 
olver) == "normal") { 


val optimizer = new WeightedLeastSquares($(fitIntercept), $( 
regParam), 
elasticNetParam = $(elasticNetParam), $(standardization) 
, true, 
solverType = WeightedLeastSquares.Auto, maxIter = $(maxI 
ter), tol = $(tol)) 
val model = optimizer.fit(instances) 
/^/ When it is trained by WeightedLeastSquares, training summ 
// attach returned model. 
val lrModel = copyValues(new LinearRegressionModel(uid, mode 
l.coefficients, model.intercept) ) 
val (summaryModel, predictionColName) = lrModel.findSummaryM 
odelAndPredictionCol() 
val trainingSummary = new LinearRegressionTrainingSummary ( 
summaryModel.transform(dataset), 
predictionColName, 
$(labelCol), 
$(featuresCol), 
summaryModel, 
model.diagInvAtWA.toArray, 
model.objectiveHistory) 


return lrModel.setSummary(Some(trainingSummary ) ) 


2.2.2.2 拟 牛 顿 法 
e 1 统计 样本 指标 


当 样 本 的 特征 维度 大 于 4096 并 且 solver 为 auto 或 者 solver 为 1- 
bfgs 时 ， 使 用 拟 牛 顿 法 求解 最 优 解 。 使 用 拟 牛 顿 法 求解 之 前 我 们 需要 先 统计 特征 
和 标签 的 相关 信息 。 


val (featuresSummarizer, ySummarizer) = { 
val seqOp = (c: (MultivariateOnlineSummarizer, Multivariat 
eOnlineSummarizer), 
instance: Instance) => 
(c. 1.add(instance.features, instance.weight), 
c. 2.add(Vectors.dense(instance.label), instance.wei 


ght)) 


val combOp = (c1: (MultivariateOnlineSummarizer, Multivari 
ateOnlineSummarizer), 
c2: (MultivariateOnlineSummarizer, MultivariateOnlineSum 
marizer)) => 
(ci. 1.merge(c2. 1), c1. 2.merge(c2. 2)) 


instances.treeAggregate( 
new MultivariateOnlineSummarizer, new MultivariateOnline 
Summarizer 
)(seqOp, combOp, $(aggregationDepth) ) 


这 里 MultivariateOnlineSummarizer 继承 
É MultivariateStatisticalsummary ， 它 使 用 在 线 ( online ) 的 方式 统计 样 
本 的 均值 、 方 差 、 最 小 值 、 最 大 值 等 指标 。 具体 的 实现 
见 MultivariateOnlineSummarizer 。 统 计 好 指标 之 后 ， 根 据 指 标的 不 同 选择 不 
同 的 处 理 方式 。 


如 果 标 签 的 方差 为 0， 并 且 不 管 我们 是 否 选择 使 用 偏 置 ， 系 数 均 为 0， 此 时 并 不 
需要 训练 模型 。 


val coefficients = Vectors.sparse(numFeatures, Seq()) // 


val intercept = yMean 
val model = copyValues(new LinearRegressionModel(uid, coefficie 
nts, intercept) ) 


Aoo g 


获取 标签 方差 ， 特 征 均 值 、 特 征 方差 以 及 正则 化 项 。 


// if y is constant (rawYStd is zero), then y cannot be scaled 
In this case 

// setting yStd-abs(yMean) ensures that y is not scaled anymore 
in l-bfgs algorithm. 

val yStd - if (rawYStd » 0) rawYStd eise math.abs(yMean) 

val featuresMean - featuresSummarizer.mean.toArray 

val featuresStd - featuresSummarizer.variance.toArray.map(math. 
sqrt) 

val bcFeaturesMean - instances.context.broadcast(featuresMean) 
val bcFeaturesStd - instances.context.broadcast(featuresStd) 


val effectiveRegParam - $(regParam) / yStd 
val effectiveLiRegParam = $(elasticNetParam) * effectiveRegPara 


m 
val effectiveL2RegParam = (1.0 - $(elasticNetParam)) * effectiv 


eRegParam 


val costFun - new LeastSquaresCostFun(instances, yStd, yMean, $( 


fitIntercept), 
$(standardization), bcFeaturesStd, bcFeaturesMean, effecti 


veL2RegParam, $(aggregationDepth) ) 


损失 有 函数 LeastsquaresCostFun 继承 自 DiffFunction[T] ， 用 于 表示 最 小 
二 乘 损失 。 它 返回 一 个 点 L2 正 则 化 后 的 损失 和 梯度 。 它 使 用 方法 def 
calculate(coefficients: BDV[Double]): (Double, BDV[Double]) 计算 损失 
和 梯度 。 这 里 coefficients 表示 一 个 特定 的 点 。 


override def calculate(coefficients: BDV[Double]): (Double, BDV[ 
Double]) = { 

val coeffs = Vectors.fromBreeze(coefficients) 

val bcCoeffs = instances.context.broadcast(coeffs) 

val localFeaturesStd = bcFeaturesStd.value 


val leastSquaresAggregator = { 
val seqOp = (c: LeastSquaresAggregator, instance: Instance 
) => c.add(instance) 


val combOp = (c1: LeastSquaresAggregator, c2: LeastSquares 
Aggregator) => ci.merge(c2) 


instances.treeAggregate( 
new LeastSquaresAggregator(bcCoeffs, labelStd, labelMean 
, fitIntercept, bcFeaturesStd, 
bcFeaturesMean))(seqOp, combOp, aggregationDepth) 


val totalGradientArray - leastSquaresAggregator.gradient.toA 
rray // 梯 度 
bcCoeffs.destroy(blocking = false) 


val regVal = if (effectiveL2regParam == 0.0) { 
O20 
} else { 
var sum = 0.0 
coeffs.foreachActive { (index, value) => 
// 下 面 的 代码 计算 正则 化 项 的 损失 和 梯度 ， 并 将 梯度 添加 到 totalGradie 
ntArray 中 
sum += { 
if (standardization) { 
totalGradientArray(index) += effectiveL2regParam * v 





alue 
value * value 
) else { 
if (localFeaturesStd(index) !- 0.0) ( 
// 如 果 仍然 标准 化 数据 加 快 
TW CU EE 
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// ， 来 得 到 正确 饼 
val temp = value / (localFeaturesStd(index) * loca 
lFeaturesStd(index)) 

totalGradientArray(index) += effectiveL2regParam * 

temp 
value * temp 
) else { 
0.0 


} 


0.5 * effectiveL2regParam * sum 


} 


(leastSquaresAggregator.loss + regVal, new BDV(totalGradient 
Array) ) 
} 


这 里 LeastSquaresAggregator 用 来 计算 最 小 二 乘 损失 函数 的 梯度 和 损失 。 
为 了 在 优化 过 程 中 提高 收敛 速度 ， 防 止 大 方差 的 特征 在 训练 时 产生 过 大 的 影响 ， 将 
特征 缩放 到 单元 方差 并 且 减 去 均值 ;可 以 减少 条 件数 。 当 使 用 截 距 进行 训练 时 ， 处 
在 缩放 后 空间 的 目标 函数 AT: 


$$ \begin{align} L &= 1/2N ||\sum_i w_i(x_i - \bar{x_i}) / \nat{x_i} - (y - \bar{y}) / 
\hat{y}||42 \end{align} $$ 
在 这 个 公式 中 ，$\bar{x i 站 了 是 $x_i$ 的 均值 ，$\hat{x 站 $ 是 $x_i$ 的 标准 差 ， 
$\bar{y}$ 是 标签 的 均值 ，$\hat{y}$ 是 标签 的 标准 差 。 


如 果 不 使 用 截 距 ， 我 们 可 以 使 用 同样 的 公式 。 不 同 的 是 $\bar{y}$ 和 
$\bar{x_i$ 分 别 用 0 代替 。 这 个 公式 可 以 重 写 为 如 下 的 形式 。 


$$ \begin{align} L &= 1/2N ||\sum_i (w_iAhat{x_i})x_i - um i 
(w_iAhat{x_i})\bar{x_i} - y / \hat{y} + \par{y} / \hat{y}||42 W &= 1/2N ||\sum_i 
w i^prime x_i - y / \hat{y} + offset||^2 = 1/2N diff^2 \end{align} $$ 


在 这 个 公式 中 ，$w_i^\prime$ 是 有 效 的 相关 系数 ， 通 过 $w_iAhat{x_ i 站 $ 计 
算 。 offset 是 $- \sum i (w_iAhat{x_i})\bar{x_i} + \bar{y} / \hat{y}$ > 9» diff X 
$\sum_i w_i\prime x i - y / \nat{y} + offset$ ° 
注意 ， 相 关系 数 和 offset 不 依赖 于 训练 数据 集 ， 所 以 它们 可 以 提前 计算 。 
现在 ， 目 标 函 数 的 一 阶 导 数 如 下 所 示 : 


$$ \begin{align} \frac{\partial L}{\partial w i) &= diff/N (x i - \par{x_i}) / \nat{x_i} 
\end{align} $$ 
A > $(x_i-\bar{x_i)$2—-*+FROHH > SUARER CHAN BAN > 
这 不 是 一 个 理想 的 公式 。 通 过 添加 一 个 稠密 项 $5ar(x i) / \hat{x_}$2] 公式 的 末尾 
可 以 解决 这 个 问题 。 目 标 流 数 的 一 阶 导 数 如 下 所 示 : 


线性 回归 


$$ \begin{align} \fracf\partial L}{\partial w_i} &=1/N \sum_j diff_j (x_{ij} - 
\par{x_i}) / \nat{x_i} W &= 1/N ((\sum_j diff j x (ij) / \nat{x_i}) - diffSum \bar{x_i} 
/\nat{x_i}) \\ &= 1/N ((\sum_j diff j x (ij) / \nat{x_i}) + correction i) \end{align} 
$$ 
这 里 ，$correction i - diffSum \bar{x 站/\hat{x i 站。 通过 一 个 简单 的 数学 推 
导 ， 我 们 就 可 以 知道 diffSum 实际 上 为 0。 


$$ \begin{align} diffSum &= \sum j (\sum_i w_i(x_{ij} - \bar{x_i}) / \nat{x_i} - 
(y. j - \bar{y}) / \nat{y}) \\ &= N * (isum i w_i(\bar{x_i} - \par{x_i}) / \nat{x_i} - 
(\bar{y} - \bar{y}) / \nat{y}) \\ &= 0 \end{align} $$ 


BEY» B tix Sy dic 04 — Bh SEAR TRH E ^ BATT 3E 6938 i 
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$$ \begin{align} \frac{\partial L}{\partial w_i} &= 1/N ((\sum_j diff j x (ij) / 
\hat{x_i}) \end{align} $$ 
我 们 首先 看 有 效 系数 $w_iAhat{x_ iD)$ 和 offset 的 实现 。 
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@transient private lazy val effectiveCoefAndOffset = ( 
val coefficientsArray - bcCoefficients.value.toArray.clone() 
// 系 数 ， 表 示 公 式 中 的 W 
val featuresMean = bcFeaturesMean.value 
var sum = 0.0 
var i = 0 
val len = coefficientsArray.length 
while (i < len) { 
if (featuresStd(i) != 0.0) { 
coefficientsArray(i) /= featuresStd(i) 
sum += coefficientsArray(i) * featuresMean(i) 
) else { 
coefficientsArray(i) = 0.0 


+= 1 

} 

val offset = if (fitIntercept) labelMean / labelStd - sum el 
Sex90 

(Vectors.dense(coefficientsArray), offset) 


B ss In 


我 们 再 来 看 看 add 方法 和 merge 方法 的 实现 。 当 添加 一 个 样本 后 ， 需 要 更 
新 相应 的 损失 值 和 梯度 值 。 


def add(instance: Instance): this.type = { 
instance match { case Instance(label, weight, features) => 
if (weight == 0.0) return this 
Ve ii 
val diff = dot(features, effectiveCoefficientsVector) - label 
/ labelStd + offset 
if (diff != 0) { 
val localGradientSumArray = gradientSumArray 
val localFeaturesStd = featuresStd 
features. foreachActive { (index, value) => 
if (localFeaturesStd(index) != 0.0 && value != 0.0) { 
localGradientSumArray(index) += weight * diff * value 
/ localFeaturesStd(index) // WA (11) 


j 


} 
lossSum += weight * diff * diff / 2.0 ENENG) 
} 
totalCnt += 1 
weightSum += weight 
this 


def merge(other: LeastSquaresAggregator): this.type = { 
if (other.weightSum != 0) { 
totalCnt += other.totalCnt 
weightSum += other.weightSum 
lossSum += other.lossSum 


var i = 0 
val localThisGradientSumArray = this.gradientSumArray 
val localOtherGradientSumArray = other.gradientSumArray 
while (i « dim) ( 
localThisGradientSumArray(i) += localOtherGradientSumArr 
ay(i) 
i+=1 


this 


最 后 ， 根 据 下 面 的 公式 分 别 获取 损失 和 梯度 。 


def loss: Double = { 
lossSum / weightSum 


def gradient: Vector = { 
val result = Vectors.dense(gradientSumArray.clone()) 
scal(i.0 / weightSum, result) 
result 


e 3 选择 最 优化 方法 


val optimizer = if ($(elasticNetParam) == 0.0 || effectiveRe 
gParam == 0.0) { 
new BreezeLBFGS[BDV[Double]]($(maxIter), 10, $(tol)) 
} else { 
val standardizationParam = $(standardization) 
def effectiveLiRegFun = (index: Int) => ( 
if (standardizationParam) { 
effectiveLiRegParam 
} else { 
// If ~standardization is false, we still standardize 
the data 
// to improve the rate of convergence; as a result, we 
have to 
// perform this reverse standardization by penalizing 
each component 
// differently to get effectively the same objective f 
unction when 
// the training dataset is not standardized. 
if (featuresStd(index) != 0.0) effectiveLiRegParam / f 
eaturesStd(index) else 0.0 
} 


} 
new BreezeOWLQN[Int, BDV[Double]]($(maxIter), 10, effectiv 


eLiRegFun, $(tol)) 
} 


如 果 没 有 正则 化 项 或 者 只 有 L2 正 则 化 项 ， 使 用 BreezeLBFGS 来 处 理 最 优化 问 
题 ， 否 则 使 用 BreezeOWLQN ° BreezeLBFGS 和 BreezeOWLQN 的 原理 在 相关 章 
节 会 做 具体 介绍 。 


e 4 获取 结果 ， 并 做 相应 转换 


val initialCoefficients = Vectors.zeros(numFeatures) 
val states = optimizer.iterations(new CachedDiffFunction(cos 
tFun), 
initialCoefficients.asBreeze.toDenseVector) 


val (coefficients, objectiveHistory) = { 
val arrayBuilder - mutable.ArrayBuilder.make [Double] 
var state: optimizer.State - null 
while (states.hasNext) { 
state - states.next() 
arrayBuilder += state.adjustedValue 


// 从 标准 空间 转换 到 原来 的 空间 
val rawCoefficients = state.x.toArray.clone() 
var i = 0 
val len = rawCoefficients.length 
while (i < len) { 
rawCoefficients(i) *= { if (featuresStd(i) != 0.0) yStd 
/ featuresStd(i) else 0.0 } 


i += 1 
} 
(Vectors.dense(rawCoefficients).compressed, arrayBuilder.r 
esult()) 
} 


2 sb 


// 系数 收 化 之 后 ，intercept 的 计算 可 以 通过 封闭 ( “closed form ) 47% Att 
算出 来 ， 详 细 的 讨论 如 下 : 
// http://stats.stackexchange.com/questions/13617/how-is-the 
-intercept-computed-in-glmnet 
val intercept = if ($(fitIntercept)) { 
yMean - dot(coefficients, Vectors.dense(featuresMean)) 
) else { 
0.0 


线性 回归 
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朴素 贝 叶 斯 
1 介绍 


朴素 贝 叶 斯 是 一 种 构建 分 类 器 的 简单 方法 。 该 分 类 器 模型 会 给 问题 实例 分 配 用 
特征 值 表 示 的 类 标签 ， 类 标签 取 自 有 限 集合 。 它 不 是 训练 这 种 分 类 器 的 单一 萌 法 ， 
而 是 一 系列 基于 相同 原理 的 算法 : 所 有 朴素 贝 叶 斯 分 类 器 都 假定 样本 每 个 特征 与 其 
他 特征 都 不 相关 。 举 个 例子 ， 如 果 一 种 水 果 其 具有 红 ， 圆 ， 直 径 大 概 3 英 寸 等 特 
征 ， 该 水 果 可 以 被 判定 为 是 苹果 。 尽 管 这 些 特征 相互 依赖 或 者 有 些 特征 由 其 他 特征 
决定 ， 然 而 朴素 贝 叶 斯 分 类 器 认为 这 些 属性 在 判定 该 水 果 是 否 为 苹果 的 概率 分 布 上 
独立 的 。 


对 于 某 些 类 型 的 概率 模型 ， 在 有 监督 学 习 的 样本 集中 能 获取 得 非常 好 的 分 类 效 
果 。 在 许多 实际 应 用 中 ， 朴 素 贝 叶 斯 模型 参数 估计 使 用 最 大 似 然 估 计 方 法 ; 换 言 
之 ， 在 不 用 贝 叶 斯 概率 或 者 任何 贝 叶 斯 模型 的 情况 下 ， 朴 素 贝 叶 斯 模型 也 能 奏效 。 

尽管 是 带 着 这 些 朴 素 思 想 和 过 于 简单 化 的 假设 ， 但 朴素 贝 叶 斯 分 类 器 在 很 多 复 
杂 的 现实 情形 中 仍 能 够 取得 相当 好 的 效果 。 尽 管 如 此 ， 有 论文 证 明 更 新 的 方法 (如 
提升 树 和 随机 森林 ) 的 性 能 超过 了 贝 叶 斯 分 类 器 。 

朴素 贝 叶 斯 分 类 器 的 一 个 优势 在 于 只 需要 根据 少量 的 训练 数据 估计 出 必要 的 参 
数 (变量 的 均值 和 方差 ) 。 由 于 变量 独立 假设 ， 只 需要 估计 各 个 变量 ， 而 不 需要 确 
定 整个 协 方差 矩阵 。 


1.1 朴素 贝 叶 斯 的 优 缺 点 


e 优点 : 学 习 和 预测 的 效率 高 ， 且 易于 实现 ; 在 数据 较 少 的 情况 下 仍然 有 效 ， 可 
以 处 理 多 分 类 问题 。 


e 缺点 : 分 类 效果 不 一 定 很 高 ， 特 征 独 立 性 假设 会 是 朴素 贝 叶 斯 变 得 简单 ， 但 是 
会 牺牲 一 定 的 分 类 准确 率 。 


2 朴素 贝 叶 斯 概率 模型 


理论 上 ， 概 举 模 型 分 类 器 是 一 个 条 件 概 举 模 型 。 


p(C|F,..., Fn) 
独立 的 类 别 变量 C 有 若干 类 别 ， 条 件 依 赖 于 若干 特征 变 
量 F_1,F_2,...,F_n 。 但 问题 在 于 如 果 特 征 数量 n 较 大 或 者 每 个 特征 能 取 大 量 
值 时 ， ， 基 于 概率 模型 列 出 概率 表 变 得 不 现实 。 所 以 我 们 修改 这 个 模型 使 之 变 得 可 
行 。 贝 叶 斯 定理 有 以 下 式 子 : 
m p(C) p( y, .. . , F,|C) 
PCF Fa) o RUE 
实际 中 ， 我 们 只 关心 分 式 中 的 分 子 部 分 ， 因 为 分 母 不 依赖 于 C 而 且 特 
征 F i 的 值 是 给 定 的 ， 于 是 分 母 可 以 认为 是 一 个 常数 。 这 样 分 子 就 等 价 于 联合 分 
布 模型 。 重复 使 用 链 式 法 则 ， 可 将 该 式 写成 条 件 概率 的 形式 ， 如 下 所 示 : 





= p(zi|za,. . . , x4, Cx)p(z5, .. ., Tn, A 





= p(zi|z»,. . . , x4, C)p(zo|t, . . ., Tn, Ck) ... p(zi i| za, Cx)p( x |Cx)p(CX) 
现在 “朴素 ” 的 条 件 独立 候 设 开始 发 挥 作用 假设 每 个 特征 Foi 对 于 其 他 特 


征 Fj 是 条 件 独 立 的 。 这 就 意味 着 


p(FiC, Fj) = p( FC) 
所 以 联合 分 布 模型 可 以 表达 为 


p(C|Fi ..., Fn) x p(C) p(FilC) p( FAC) p(F3C) --- 


i=l 
这 意味 着 上 述 假 设 下 ， 类 变量 c 的 条 件 分 布 可 以 表达 为 : 


at C) nc FC) 
其 中 z 是 一 个 只 依赖 与 F_1,...,F_n 等 的 缩放 因子 ， 当 特 征 变 量 的 值 已 知 
时 是 一 个 常数 。 


从 概率 模型 中 构造 分 类 器 


nop E 
素 贝 叶 斯 分 类 器 包括 了 这 种 模型 和 相应 的 决策 规则 。 一 个 普通 的 规则 就 是 选 出 最 有 
RAK RIO AEE ( MAP ) 决策 准则 。 相 应 的 分 类 器 
便 是 如 下 定义 的 公式 : 


classify( fi, ..., fn) = argmax p(C -o JJ» (F; = filC = c) 


3 参数 估计 


所 有 的 模型 参数 都 可 以 通过 训练 集 的 相关 频率 来 估计 。 常 用 方法 是 概率 的 最 大 
似 然 估计 。 类 的 先 验 概 率 P(C) 可 以 通过 假设 各 类 等 概率 来 计算 ( 先 验 概 率 = 
(类 的 数量 ) ) ， 或 者 通过 训练 集 的 各 类 样本 出 现 的 次 数 来 估计 (〈(A 类 先 验 概率 = (AX 
样本 的 数量 ) / (样本 总 数 )) 。 


对 于 类 条 件 概 率 P(X|c) 来 说 ， 直 接 根 据 样本 出 现 的 频率 来 估计 会 很 困难 。 在 
现实 应 用 中 样本 空间 的 取 值 往往 远 远 大 于 训练 样本 数 ， 也 就 是 说 ， 很 多 样本 取 值 在 
训练 集中 根本 没有 出 现 ， 直 接 使 用 频率 来 估计 P(x|c) 不 可 行 ， 因 为 "未 被 观察 
到 "和 "出 现 概 率 为 零 " 是 不 同 的 。 为 了 估计 特征 的 分 布 参数 ， 我 们 要 先 假设 训练 集 数 

据 满 足 某 种 分 布 或 者 非 参 数 模 型 。 


这 种 假设 称 为 朴素 贝 叶 斯 分 类 器 的 事件 模型 ( event model ) 。 对 于 离散 的 


型 〈 
特征 数据 (例如 文本 分 类 中 使 用 的 特征 ) ， 多 元 分 布 和 伯 努 利 分 布 比较 流行 。 


ray ATP DUAE 


如 果 要 处 理 的 是 连续 数据 ， 一 种 通常 的 假设 是 这 些 连续 数值 服从 高 斯 分 布 。 例 
如 ， 假 设 训练 集中 有 一 个 连续 属性 x 。 我 们 首先 对 数据 根据 类 别 分 类 ， 然 后 计算 
每 个 类 别 中 x 的 均值 和 方差 。 令 mu c 表示 为 x 在 c 类 上 的 均值 ， 
令 pue c 为 x 在 c 类 上 的 方差 。 在 给 定 类 中 某 个 值 的 概率 P(x=vic) ， 
可 以 通过 将 v 表示 为 均值 为 mu_c ° FHA sigma^2 c 的 正 态 分布 计 算出 来 。 








1 _ (v— 4c )* 
p(x = vlc) = ^ ae 
MCN 
处 理 连 续 数值 问题 的 另 一 种 常用 的 技术 是 通过 离散 化 连续 数值 的 方法 。 通 常 ， 


当 训 练 样本 数量 较 少 或 者 是 精确 的 分 布 已 知 时 ， 通 过 概率 分 布 的 方法 是 一 种 更 好 的 
选择 。 在 大 量 样本 的 情形 下 离散 化 的 方法 表现 更 优 ， 因 为 大 量 的 样本 可 以 学 习 到 数 
据 的 分 布 。 由 于 朴素 贝 叶 斯 是 一 种 典型 的 用 到 大 量 样本 的 方法 〈 越 大 计算 量 的 模型 
可 以 产生 越 高 的 分 类 精确 度 ) ， 所 以 朴素 贝 叶 斯 方法 都 用 到 离散 化 方法 ， 而 不 是 概 
率 分 布 估计 的 方法 。 


2 多 元 朴素 贝 叶 斯 


在 多 元 事件 模型 中 ， 样 本 (特征 向 量 ) 表示 特定 事件 发 生 的 次 数 。 用 pik 
示 事 件 i 发 生 的 概 举 。 特 征 向 量 X=(x_1,x_2,...,xX_n) 是 一 个 histogram ， 
i x i 表示 事件 i 在 特定 的 对 象 中 被 观察 到 的 次 数 。 事件 模型 通常 用 于 文本 分 
。 相 应 的 X i 表示 词 i 在 单个 文档 中 出 现 的 次 数 。 X 的 似 然 函数 如 下 所 示 : 


,i ! 
p(x|C.) = 2 ^ II» 


当 用 对 数 空 TOME 类 器 变 成 了 线性 分 类 器 。 


logp(Ck|x) cc log (new [>] 
i=1 


= log p(Ck) + »- Ti -logpxi 
i-1l 





=b+wlx 
如 果 一 个 给 定 的 类 和 特征 值 在 训练 E 一 起 出 现 过 ， 那 么 基于 频率 的 估计 
这 将 是 一 个 问题 。 因 为 与 其 他 概率 相 乘 时 将 会 把 其 他 概率 的 信息 
统统 去 除 。 所 以 常 TE E S | RRO 
a 。 常 用 到 的 平滑 就 是 加 1 平滑 (也 称 拉 普 拉 斯 平 消 ) 。 


根据 参考 文献 【2】， 我 们 以 文本 分 类 的 训练 和 测试 为 例子 来 介绍 多 元 朴素 由 
叶 斯 的 训练 和 测试 过 程 。 如 下 图 所 示 。 


TRAINMULTINOMIALNB(C, D) 
1 V+ EXTRACTVOCABULARY(D) 
2 N+ COUNTDOCS(D) 
3 for eachc c C 
4 do N; + COUNTDOCSINCLASS(D, c) 
prior|c] — Nc/N 
texte — CONCATENATETEXTOFALLDOCSINCLASS(D, c) 
for eacht c V 
do Tit — COUNTTOKENSOFTERM (text, t) 
9 for eacht c V 


10 do condprob|t] [c] — nal 


11 return V, prior, condprob 


goo Uu 


APPLYMULTINOMIALNB(C, V, prior, condprob, d) 
1 W + EXTRACTTOKENSFROMDOC(V, d) 
for eachc c C 
do score|c| — log prior |c] 
for each f c W 
do score|c] += log condprob|t] c] 
6 return arg max, -ç score|c| 


Me WN 


CE 


这 里 的 CondProb[t][c] 即 上 文中 的 P(x|C) » T ct 表示 类 别 为 c 的 文 


档 中 t 出 现 的 次 数 。 +1 就 是 平滑 手段 。 


3.3 伯 努 利 朴素 贝 叶 斯 


在 多 变量 伯 努 利 事件 模型 中 ， 特 征 是 独立 的 二 值 变量 。 和 多 元 模型 一 


模型 在 文本 分 类 中 也 非常 流行 。 它 的 似 然 函数 如 下 所 示 。 
p(x|Cx) = Ti 1 — Pri)! je zi) 


其 中 pki 表示 类 别 Ck 生成 TX wi 的 概率 。 这 个 模型 通 


根据 参考 文献 【2】， 我 们 以 文本 分 类 的 训练 和 测试 为 例子 来 介 2 
叶 斯 的 训练 和 测试 过 程 。 如 下 图 所 示 。 


常用 于 短文 


多 元 朴素 贝 


TRAINBERNOULLINB(C, D) 
V —— EXTRACTVOCABULARY(D) 
N — COoUNTDOCS(D) 
for eachc c C 
do Nc —— COUNTDOCSINCLASS(D, c) 
prior[c| — Nc/N 
for eacht c V 
do Ne —— COUNTDOCSINCLASSCONTAININGTERM(D, c, t) 
condprob|t]lc] — (Na +1)/ (N: + 2) 
return V, prior, condprob 


WmnNAOPWNeR 


APPLYBERNOULLINB(C, V, prior, condprob, d) 
Vi — EXTRACTTERMSEROMDOCY(V, d) 
for eachc c C 
do score|c| — log prior [c] 
for eacht c V 
do if f € Vj 
then score[c] += log condprob|t] [c] 
else score|c] += log(1— condprob|t|[c]) 
return arg max. score |c| 


gogo ug í|otMHu-2— 


€ 


>» Figure 13.1 NB algorithm (Bernoulli model): Training and testing. The add-one 
smoothing in Line 8 (top) is in analogy to Equation 119 with B — 2. 


4 源码 分 析 


MLlib 中 实现 了 多 元 朴素 贝 叶 斯 和 伯 努 利 朴 素 贝 叶 斯 。 下 面 先 看 看 朴素 贝 叶 
斯 的 使 用 实例 。 


4.1 实例 


import org.apache.spark.mllib.classification.{NaiveBayes, NaiveB 
ayesModel} 
import org.apache.spark.mllib.linalg.Vectors 
import org.apache.spark.mllib.regression.LabeledPoint 
// 读 取 并 处 理 数 据 
val data = sc.textFile("data/mllib/sample_naive_bayes_data.txt") 
val parsedData = data.map { line => 
val parts = line.split(',') 
LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' 
').map(_.toDouble) ) ) 


LAr x 


// 切 分 数据 为 训练 数据 和 测试 数据 
val splits = parsedData.randomSplit(Array(0.6, 0.4), seed = 11L) 
val training = splits(0) 

val test = splits(1) 

// 训 练 模 型 

val model = NaiveBayes.train(training, lambda = 1.0, modelType = 
"multinomial" ) 

// 测 试 数据 

val predictionAndLabel = test.map(p => (model.predict(p.features 
), p-label)) 

val accuracy = 1.0 * predictionAndLabel.filter(x => x._1 == x._2 
).count() / test.count() 


n — Án] 


4.2 训练 模型 


从 上 文 的 原理 分 析 我 们 可 以 知道 ， 朴 素 贝 叶 斯 模型 的 训练 过 程 就 是 获取 概 
Æ p(C) fe p(F[C) 的 过 程 。 根 据 MLlib 的 源码 ， 我 们 可 以 将 训练 过 程 分 为 两 
步 。 第 一 步 是 聚合 计算 每 个 标签 对 应 的 term 的 频率 ， 第 二 步 是 迭代 计 


已 


X p(c) fe p(FIC) ° 


e 1 计算 每 个 标签 对 应 的 term 的 频率 


val aggregated = data.map(p => (p.label, p.features)).combineByK 
ey[(Long, DenseVector)]( 
createCombiner = (v: Vector) => ( 
if (modelType -- Bernoulli) ( 
requireZeroOneBernoulliValues(v) 
) else { 
requireNonnegativeValues(v) 
} 
(iL, v.copy.toDense) 
ty 
mergeValue = (c: (Long, DenseVector), v: Vector) => { 
requireNonnegativeValues(v) 
fa. = Weal sp (Qa A 
BLAS.axpy(1.0, v, c._2) 
(CE E ee) 
ty 
mergeCombiners = (c1: (Long, DenseVector), c2: (Long, Dens 
eVector)) => { 
BEAS -axpy (1.0, G2. 2, c1._2) 
(Clip -—por02. 51,564.72) 


} 
).collect().sortBy(_._1) 
这 里 我 们 需要 先 了 解 createcombiner 函数 的 作用 。 createCombiner 的 作 
用 是 将 原 RDD 中 的 Vector 类 型 转换 为 (long,Vector) 类 型 。 


如 果 modelType 为 Bernoulli >? MA v 中 包含 的 值 只 能 为 0 或 者 1。 如 
Æ modelType A multinomial ， 那 么 v 中 包含 的 值 必 须 大 于 0 。 


// 值 非 负 
val requireNonnegativeValues: Vector => Unit = (v: Vector) => { 
val values = v match { 
case sv: SparseVector => sv.values 
case dv: DenseVector => dv.values 
} 
if (!values.forall(_ >= 0.0)) { 
throw new SparkException(s"Naive Bayes requires nonnegat 
ive feature values but found $v.") 
} 
} 
// 值 为 0 或 者 1 
val requireZeroOneBernoulliValues: Vector => Unit = (v: Vector) 
=> { 
val values = v match { 
case sv: SparseVector => sv.values 
case dv: DenseVector => dv.values 
} 
if (!values.forall(v => v == 0.0 || v == 1.0)) { 
throw new SparkException( 
s"Bernoulli naive Bayes requires 0 or 1 feature values 
but found $v.") 
} 


mergeValue 函数 的 作用 是 将 新 来 的 Vector Ra eA 6 xv o HRA 
40 mergeCombiners 则 是 合并 不 同 分 区 的 (long, Vector) 数据 。 通 过 这 个 函 
数 ， 我 们 就 找到 了 每 个 标签 对 应 的 词 频 率 ， 并 得 到 了 标签 对 应 的 所 有 文档 的 累加 向 


a 


uw o 


e 2 迭代 计算 p(C) 和 p(FIC) 


// 标 签 数 

val numLabels = aggregated.length 

// 文 档 数 

var numDocuments = OL 

aggregated.foreach { case (_, (n, _)) => 
numDocuments += n 


// 特 征 维 数 
val numFeatures = aggregated.head match { case (_, (_, v)) => v. 
size } 
val labels = new Array[Double](numLabels) 
// 表 示 1ogP(C ) 
val pi = new Array[Double](numLabels) 
// i logP(F|C) 
val theta - Array.fill(numLabels)(new Array[Double](numFeatures) 
) 
val piLogDenom = math.log(numDocuments + numLabels * lambda) 
var 1 = 0 
aggregated.foreach { case (label, (n, sumTermFreqs)) => 
labels(i) = label 
// 训 练 步骤 的 第 5 步 
pi(i) = math.log(n + lambda) - piLogDenom 
val thetaLogDenom = modelType match { 
case Multinomial => math.log(sumTermFreqs.values.sum + n 
umFeatures * lambda) 
case Bernoulli => math.log(n + 2.0 * lambda) 
case _ => 
// This should never happen. 
throw new UnknownError(s"Invalid modelType: $modelType 
.") 
} 
// 训 练 步骤 的 第 6 步 
var j = 0 
while (j < numFeatures) { 
theta(i)(j) = math.log(sumTermFreqs(j) + lambda) - theta 
LogDenom 
i| wet 
} 


i += 1 


这 段 代码 计算 上 文 提 到 的 p(C) 和 p(F|C) 。 这 里 的 lambda 表示 平滑 因 
子 ， 一 般 情 况 下 ， 我 们 将 它 设 置 为 1。 代 码 中 ， p(c i)-log 
(n+lambda)/(numDocstnumLabels*lambda) ， 这 对 应 上 文 训练 过 程 的 第 5 
步 prior(c)=N_c/N o 


根据 modelType 类 型 的 不 同 ， p(F|C) 的 实现 则 不 同 。 
当 modelType 为 Multinomial 时 ， P(F|C)-T ct/sum(T ct) ， 这 
里 sum(T_ct )=sumTermFreqs.values.sum + numFeatures * lambda ° 
多 元 朴素 贝 叶 斯 训练 过 程 的 第 10 步 。 3 modelType A Bernoulli 时 ， P(F|C)- 
(N ct-lambda)/(N c*2*lambda) 。 这 对 应 伯 努 利 贝 叶 斯 训练 算法 的 第 8 行 


这 对 应 


需要 注意 的 是 ， 代 码 中 的 所 有 计算 都 是 取 对 数 计 算 的 。 


4.3 预测 数据 


override def predict(testData: Vector): Double = { 
modelType match { 


case Multinomial => 
labels(multinomialCalculation(testData).argmax) 


case Bernoulli => 
labels(bernoulliCalculation(testData).argmax) 


预测 也 是 根据 modelType 的 不 同 作 不 同 的 处 理 。 
当 modelType 为 Multinomial 时 ， 调 用 multinomialCalculation 2 ° 


private def multinomialCalculation(testData: Vector) = { 
val is - RO a MN 
BLAS.axpy(1.0, piVector, prob) 
prob 


这 里 的 thetaMatrix 和 pivector 即 上 文中 训练 得 到 
gh FTE) aad) ^ 75 BCI EO UI) tC) a 
类 别 的 概率 。 注意 ， 这 些 概率 都 是 基于 对 数 结果 计算 的 。 


当 modelType 为 Bernoulli 时 ， 实 现代 码 略 有 不 同 。 


private def bernoulliCalculation(testData: Vector) = { 
testData.foreachActive((_, value) => 
if (value != 0.0 && value != 1.0) { 
throw new SparkException( 
s"Bernoulli naive Bayes requires 0 or 1 feature values 
but found $testData.") 
} 


) 
val prob = thetaMinusNegTheta.get.multiply(testData) 


BLAS.axpy(1.0, piVector, prob) 
BLAS.axpy(1.0, negThetaSum.get, prob) 
prob 


当 词 在 训练 数据 中 出 现 与 否 处 理 的 过 程 不 同 。 见 伯 努 利 模 型 测试 过 程 。 这 里 用 
矩阵 和 向 量 的 操作 来 实现 这 个 过 程 ， 需 要 仔细 体会 。 


private val (thetaMinusNegTheta, negThetaSum) = modelType match 
{ 
case Multinomial => (None, None) 
case Bernoulli => 
val negTheta = thetaMatrix.map(value => math.log(1.0 - mat 
h.exp(value) ) ) 
val ones = new DenseVector (Array.fill(thetaMatrix.numCols) { 
1.0}) 
val thetaMinusNegTheta = thetaMatrix.map { value => 
value - math.log(1.0 - math.exp(value) ) 


j 
(Option(thetaMinusNegTheta), Option(negTheta.multiply(ones 


) ) ) 
case _ => 
// This should never happen. 
throw new UnknownError(s"Invalid modelType: $modelType.") 
j 


l| m—————— -—— —————— "emer | 


这 里 math.exp(value) 4 TAMER X MA KAY o 


朴素 贝 叶 斯 


【1】 朴 素 贝 叶 斯 分 类 器 
[2] Naive Bayes text classification 


[3] The Bernoulli model 
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决策 树 
1 决策 树 理论 


1.1 什么 是 决策 树 


所 谓 决策 树 ， 顾 名 思 义 ， 是 一 种 树 ， 一 种 依托 于 策略 抉择 而 建立 起 来 的 树 。 机 
器 学 习 中 ， 决 策 树 是 一 个 预测 模型 ; 他 代表 的 是 对 象 属性 与 对 象 值 之 间 的 一 种 映射 
关系 。 树 中 每 个 节点 表示 某 个 对 象 ， 而 每 个 分 又 路 径 则 代表 的 茶 个 可 能 的 属性 值 ， 
从 根 节点 到 叶 节 点 所 经 历 的 路 径 对 应 一 个 判定 测试 序列 。 决 策 树 仅 有 单一 输出 ， 若 
和 欲 有 复数 输出 ， 可 以 建立 独立 的 决策 树 以 处 理 不 同 输出 。 


1.2 决策 树 学 习 流 程 


决策 树 学 习 的 主要 目的 是 为 了 产生 一 棵 泛 化 能 力 强 的 决策 树 。 其 基本 流程 遵循 
简单 而 直接 的 “分 而 治之 ”的 策略 。 它 的 流程 实现 如 下 所 示 : 


输入 : 训练 集 D={(x_1,y_1), (x2,y_2),..., (xm, y_m)}; 
属性 集 A-(a 1,a 2,...,a d) 

过 程 : 函数 GenerateTree(D, 人) 

1: 生成 节点 node; 

2: if D 中 样本 全 属于 同一 类 别 C then 

3 将 node 标 记 为 C 类 叶 节 点 ， 并 返回 

4: end if 

5: if AAZ OR D 中 样本 在 A 上 取 值 相同 then 

6 将 node 标 记 为 叶 节 点 ， 其 类 别 标记 为 D 中 样本 数量 最 多 的 类 ， 并 返回 

7: end if 

8: 从 人 A 中 选择 最 优 划 分 属性 ax ; // 每 个 属性 包含 若干 取 值 ， 这 里 假设 有 V 个 取 值 

9: for a* 的 每 个 值 a*_v do 

10: 为 node 生 成 一 个 分 支 ， 令 D_Vv 表 示 D 中 在 ax* 上 取 值 为 ax_V 的 样本 子 集 ; 

alale if D v XÈ then 


12: 将 分 支 节点 标记 为 叶 节 点 ， 其 类 别 标记 为 D 中 样本 最 多 的 类 ， 并 返回 
3s else 

14: vAGenerateTree(D_v,A\{a*})AP 3$ A 

np end if 

16: end for 


决策 树 的 生成 是 一 个 递归 的 过 程 。 有 三 种 情况 会 导致 递归 的 返回 : (1) 当前 
节点 包含 的 样本 全 属于 同一 个 类 别 。 (2) 当前 属性 值 为 室 ， 或 者 所 有 样本 在 所 有 
属性 上 取 相 同 的 值 。 (3) 当前 节点 包含 的 样本 集合 为 空 。 


在 第 (2) 中 情形 下 ， 我 们 把 当前 节点 标记 为 叶 节 点 ， 并 将 其 类 别 设 定 为 该 节 
点 所 含 样本 最 多 的 类 别 ; 在 第 (3) 中 情形 下 ， 同 样 把 当前 节点 标记 为 叶 节 点 ， 但 
是 将 其 类 别 设 定 为 其 父 节点 所 含 样本 最 多 的 类 别 。 这 两 种 处 理 实质 不 同 ， 前 者 利用 
当前 节点 的 后 验 分 布 ， 后 者 则 把 父 节点 的 样本 分 布 作为 当前 节点 的 先 验 分 布 。 


1.3 决策 树 的 构造 


构造 决策 树 的 关键 步骤 是 分 裂 属性 ( 即 确定 属性 的 不 同 取 值 ， 对 应 上 面 流程 中 
的 a v ) 。 所 谓 分 裂 属性 就 是 在 某 个 节点 处 按照 某 一 属性 的 不 同 划 分 构造 不 同 的 
分 支 ， 其 目标 是 让 各 个 分 裂 子 集 尽 可 能 地 “ 纯 ”。 尽 可 能 “ 纯 ?" 就 是 尽量 让 一 个 分 裂 子 
集中 待 分 类 项 属于 同一 类 别 。 分 裂 属 性 分 为 三 种 不 同 的 情况 : 


。1、 属 性 是 离散 值 且 不 要 求生 成 二 又 决策 树 。 此 时 用 属性 的 每 一 个 划分 作为 一 
个 分 支 。 


e 2、 属 性 是 离散 值 且 要 求生 成 二 又 决策 树 。 此 时 使 用 属性 划分 的 一 个 子 集 进行 
测试 ， 按 照 " 属 于 此 子 集 * 和 "不 属于 此 子 集 "分 成 两 个 分 支 。 


e 3、 属 性 是 连续 值 。 此 时 确定 一 个 值 作 为 分 裂 点 split point * 4€ 
FR >split_point 和 «-split point 生成 两 个 分 支 。 


1.4 划分 选择 


在 决策 树 算 法 中 ， 如 何 选 择 最 优 划 分 属性 是 最 关键 的 一 步 。 一 般 而 言 ， 随 着 划 
分 过 程 的 不 断 进行 ， 我 们 希望 决策 树 的 分 支 节点 所 和 包含 的 样本 尽 可 能 属于 同一 类 
别 ， 即 节点 的 “纯度 (purity)" 越 来 越 高 。 有 几 种 度量 样本 集合 纯度 的 指标 。 
在 MLlib F > È Bite X648 OH T ARATZ” FAATRAM EB o 
1.4.1 43 & 

42 B. XC EE ES oh dC EL 89 — 048A c dU anA D 
第 ok 类 样本 所 占 的 比例 为 p k ， 则 p $4584 x37 : 

ly 


Ent(D) = 一 > Py 1085 Pk 


Ent(D) 的 值 越 小 ， 则 D 的 纯度 越 高 。 


1.4.2 基尼 系数 
采用 和 上 式 相同 的 符号 ， 基 尼 系 数 可 以 用 来 度量 数据 集 D 的 纯度 。 


iyl ly] 


Gini(D) = x 2. PePe —1— z Pk 


k=1 k'k 
直观 来 说 ， Gini(D) 反映 了 从 数据 集 D 中 随机 取样 两 个 样本 ， 其 类 别 标记 
一 致 的 概率 。 因 此 ， Gini(D) 越 小 ， 则 数据 集 D 的 纯度 越 高 。 


1.4.3 方差 


MLlib 中 使 用 方差 来 度量 纯度 。 如 下 所 示 


N 


N 
1 1 
Var(D) = PAG -x2,0 
= 


i=1 


1.4.4 信息 增益 


` 
> 


假设 切 分 大 小 为 N 的 数据 集 D 为 两 个 数据 集 D left 和 D right ， 那 么 信 
息 增 益 可 以 表示 为 如 下 的 形式 。 


Nieft Night 


IG(D, s) = Impurity(D) 一 -y MPY (Diege) = 





Impurity (Dright) 

一 般 情 况 下 ， 信 息 增益 越 大 ， 则 意味 着 使 用 属性 a 来 进行 划分 所 获得 的 纯度 
提升 越 大 。 因 此 我 们 可 以 用 信息 增益 来 进行 决策 树 的 划分 属性 选择 。 即 流程 中 的 第 
8 步 。 


1.5 决策 树 的 优 缺 点 


决策 树 的 优点 : 

e 1 决策 树 易 于 理解 和 解释 ; 

e 2 能 够 同时 处 理 数据 型 和 类 别 型 属性 ; 

e 3 决策 树 是 一 个 和 白 盒 模型 ， 给 定 一 个 观察 模型 ， 很 容易 推出 相应 的 逻辑 表达 
式 ; 

e 4 在 相对 较 短 的 时 间 内 能 够 对 大 型 数据 作出 效果 良好 的 结果 ; 

e 5 比较 适合 处 理 有 缺失 属性 值 的 样本 。 


决策 树 的 缺点 : 


e 1 对 那些 各 类 别 数 据 量 不 一 致 的 数据 ， 在 决策 树种 ， 信 息 增 益 的 结果 偏向 那些 
具有 更 多 数值 的 特征 ; 

e 2 容易 过 拟 合 ; 

e 3 忽略 了 数据 集中 属性 之 间 的 相关 性 。 


2 实例 与 源码 分 析 


2.1 实例 


下 面 的 例子 用 于 分 类 。 


import org.apache.spark.mllib.tree.DecisionTree 

import org.apache.spark.mllib.tree.model.DecisionTreeModel 
import org.apache.spark.mllib.util.MLUtils 

// Load and parse the data file. 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample libsvm 
data.txt") 

// Split the data into training and test sets (309; held out for 
testing) 

val splits - data.randomSplit(Array(0.7, 0.3)) 

val (trainingData, testData) = (splits(9?), splits(1)) 

// Train a DecisionTree model. 


// Empty categoricalFeaturesInfo indicates all features are con 
tinuous. 
val numClasses - 2 
val categoricalFeaturesInfo - Map[Int, Int]() 
val impurity - "gini" 
val maxDepth = 5 
val maxBins - 32 
val model - DecisionTree.trainClassifier(trainingData, numClasse 
S, categoricalFeaturesInfo, 
impurity, maxDepth, maxBins) 
// Evaluate model on test instances and compute test error 
val labelAndPreds = testData.map { point => 
val prediction = model.predict(point.features) 
(point.label, prediction) 
} 
val testErr = labelAndPreds.filter(r => r._1 != r._2).count().to 
Double / testData.count() 
println("Test Error = " + testErr) 
printin("Learned classification tree model:\n" + model.toDebugSt 
ring) 


下 面 的 例子 用 于 回归 。 


import org.apache.spark.mllib.tree.DecisionTree 

import org.apache.spark.mllib.tree.model.DecisionTreeModel 
import org.apache.spark.mllib.util.MLUtils 

// Load and parse the data file. 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample libsvm 
data.txt") 

// Split the data into training and test sets (309; held out for 
testing) 

val splits - data.randomSplit(Array(0.7, 0.3)) 

val (trainingData, testData) = (splits(0), splits(1)) 

// Train a DecisionTree model. 


// Empty categoricalFeaturesInfo indicates all features are con 
tinuous. 
val categoricalFeaturesInfo - Map[Int, Int]() 
val impurity - "variance" 
val maxDepth - 5 
val maxBins - 32 
val model - DecisionTree.trainRegressor(trainingData, categorica 
lFeaturesInfo, impurity, 
maxDepth, maxBins) 
// Evaluate model on test instances and compute test error 
val labelsAndPredictions = testData.map { point => 
val prediction - model.predict(point.features) 
(point.label, prediction) 
} 
val testMSE = labelsAndPredictions.map{ case (v, p) => math.pow( 
V - p, 2) }.mean() 
printin("Test Mean Squared Error = " + testMSE) 
println("Learned regression tree model:\n" + model. toDebugString 


) 


2.2 源码 分 析 


在 MLLib 中 ， 决 策 树 的 实现 和 随机 森林 的 实现 是 在 一 起 的 。 随 机 森林 实现 
中 ， 当 树 的 个 数 为 1 时 ， 它 的 实现 即 为 决策 树 的 实现 。 


决策 树 


def run(input: RDD[LabeledPoint]): DecisionTreeModel = { 
// 树 个 数 为 1 
val rf = new RandomForest(strategy, numTrees = 1, featureSub 
setStrategy = "all", seed = 0) 
val rfModel = rf.run(input) 
rfModel.trees(0) 


y 


a: 


AS 


ow 


这 里 的 strategy 是 Strategy 的 实例 ， 它 包含 如 下 1 


/** 
* Stores all the configuration options for tree construction 

* @param algo Learning goal. Supported: 

B [[org.apache.spark.mllib.tree.configuration.Algo 
.Classification]], 

$ [[org.apache.spark.mllib.tree.configuration.Algo 
.Regression]] 

* (param impurity Criterion used for information gain calculati 


on. 

* Supported for Classification: [[org.apache.sp 
ark.mllib.tree.impurity.Gini]], 

is [[org.apache.spark.mllib.tree.impurity.Entro 
py]]. 

x Supported for Regression: [[org.apache.spark. 


mllib.tree.impurity.Variance]]. 

* (param maxDepth Maximum depth of the tree. 

3 E.g., depth © means 1 leaf node; depth 1 mean 
s 1 internal node + 2 leaf nodes. 

* (param numClasses Number of classes for classification. 


B (Ignored for regression.) 
3 Default value is 2 (binary 
classification). 


* (param maxBins Maximum number of bins used for discretizing c 
ontinuous features and 


3 for choosing how to split on features at each 
node. 
i More bins give higher granularity. 


* param quantileCalculationStrategy Algorithm for calculating 
quantiles. Supported: 
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决策 树 


b [[org.apache.spark.mllib.tree.con 
figuration.QuantileStrategy.Sort]] 

* param categoricalFeaturesInfo A map storing information abou 
t the categorical variables and the 

i number of discrete values they 
take. For example, an entry (n -> 

$ k) implies the feature n is ca 
tegorical with k categories 0, 

b qc» ee ke Le S mp ontan 
t to note that features are 

B zero-indexed. 

* (param minInstancesPerNode Minimum number of instances each c 
hild must have after split. 


* Default value is 1. If a split cau 
se left or right child 

» to have less than minInstancesPerN 
ode, 

* this split will not be considered 


as a Valid split. 
* @param minInfoGain Minimum information gain a split must get. 
Default value is 0.0. 


3 If a split has less information gain than 
minInfoGain, 

à this split will not be considered as a val 
ala |=) ollie 


* @param maxMemoryInMB Maximum memory in MB allocated to histog 
ram aggregation. Default value is 

s 256 MB. 

* param subsamplingRate Fraction of the training data used for 
learning decision tree. 

* (param useNodeidCache If this is true, instead of passing tre 
es to executors, the algorithm will 

b maintain a separate RDD of node Id cache 
for each row. 

* param checkpointInterval How often to checkpoint when the no 
de Id cache gets updated. 


A E.g. 10 means that the cache will g 
et checkpointed every 10 updates. If 

3 the checkpoint directory is not set 
in 
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i [[org.apache.spark.SparkContext]], 
this setting is ignored. 
i 
class Strategy @Since("1.3.0") ( 
@Since("1.0.0") @BeanProperty var algo: ALgo,// 选 择 的 算法 ， 有 分 
类 和 回归 两 种 选择 
QSince("1.0.0") @BeanProperty var impurity: Impurity,// 纯 度 有 
Ws ALAA o FAAP RE 
@Since("1.0.0") @BeanProperty var maxDepth: Int,// 树 的 最 大 深度 
@Since("1.2.0") @BeanProperty var numClasses: Int = 2,//7 X X 


@Since("1.0.0") @BeanProperty var maxBins: Int = 32,//mKF 
树 个 数 

QSince("1.0.0") QBeanProperty var quantileCalculationStrateg 
y: pec cdd - Sort, 

// 保 存 类 别 变 量 以 及 相应 的 离散 值 。 一 个 entry (n ->k) 表示 特征 n 属 于 k 个 类 
31 Alas) dye, Ki 

TERIS canon @BeanProperty var categoricalFeaturesInfo: M 
ap[Int, Int] - Map[Int, Int](), 

QSince("1.2.0") QBeanProperty var minInstancesPerNode: Int - 


1, 
QSince("1.2.0") QBeanProperty var minInfoGain: Double = 0.0, 
QSince("1.0.0") QBeanProperty var maxMemoryInMB: Int - 256, 
QSince("1.2.0") @BeanProperty var subsamplingRate: Double = 1 
/ 
QSince("1.2.0") @BeanProperty var useNodeIdCache: Boolean = 
false, 


QSince("1.2.0") QBeanProperty var checkpointInterval: Int = 
10) extends Serializable 
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天 策 树 的 实现 我 们 在 随机 森林 专题 介绍 。 这 里 我 们 只 需要 知道 ， 当 随机 森林 的 
树 个 数 为 1 时 ， 它 即 为 决策 树 ， 并 且 此 时 ， 树 的 训练 所 用 的 特征 是 全 部 特征 ， 而 不 
是 随机 选择 的 部 分 特征 。 即 featureSubsetStrategy = "all" 。 


集成 学 习 通 过 构建 并 结合 多 个 学 习 器 来 完成 学 习 任务 ， 有 时 也 被 称 为 多 分 类 器 
系统 。 集 成 学 习 通 过 将 多 个 学 习 器 进行 结合 ， 常 可 获得 比 单一 学 习 器 显著 优越 的 泛 
化 能 力 。 


根据 个 体 学 习 器 的 生成 方式 ， 目 前 的 集成 学 习 方法 大 致 可 以 分 为 两 大 类 。 即 个 
体 学 习 器 之 间 存 在 强 依赖 性 ， 必 须 串 行 生 成 的 序列 化 方法 以 及 个 体 学 习 器 之 间 不 存 
在 强 依赖 性 ， 可 同时 生成 的 并 行 化 方法 。 前 者 的 代表 是 Boosting ， 后 者 的 代表 
是 Bagging 和 随机 森林 。 后 面 的 随机 森林 章节 会 详细 介绍 Bagging 和 随机 森 
林 ; 梯度 提升 树 章 节 会 详细 介绍 Boosting 和 梯度 提升 树 。 


随机 森林 


1Bagging 


Bagging 采用 自助 采样 法 ( bootstrap sampling ) 采 样 数据 。 给 定 包 
4 m 个 样本 的 数据 集 ， 我 们 先 随 机 取出 一 个 样本 放 入 采样 集中 ， 再 把 该 样本 放 回 
初始 数据 集 ， 使 得 下 次 采样 时 ， 样 本 仍 可 能 被 选中 ， 这 样 ， 经 过 m 次 随机 采样 操 
作 ， 我 们 得 到 包含 m 个 样本 的 采样 集 。 


按照 此 方式 ， 我 们 可 以 采样 出 T 个 含 m 个 训练 样本 的 采样 集 ， 然 后 基于 每 个 
采样 集训 练 出 一 个 基本 学 习 器 ， 再 将 这 些 基 RA 进行 结合 。 这 就 
是 Bagging 的 一 般 流程 。 在 对 预测 输出 进行 结合 时 ， Bagging 通常 使 用 简单 投 
票 法 ， 对 回归 问题 使 用 简单 平均 法 。 en 预测 时 ， 出 现 两 个 类 收 到 同样 票数 的 情 
形 ， 则 最 简单 的 做 法 是 随机 选择 一 个 ， 也 可 以 进一步 考察 学 习 器 投票 的 置信 度 来 确 
定 最 终 胜 者 。 


Bagging 的 算法 描述 如 下 图 所 示 。 


输入 : 训练 集 D = (G3), (2V2), > (Xn Y); 
基础 学 习 算 法 7 
训练 次 数 T 

过 程 : 

1: fort=1,2,...,.Tdo 

2: Ay = ¢(D,Dps) 

3: endfor 

输出 : H(x) = arg MAX yey Lt=11 (hy (x) =y) 


2 随机 森林 


随机 森林 是 Bagging 的 一 个 扩展 变 体 。 随 机 森林 在 以 决策 树 为 基 学 习 器 构 
建 Bagging 集成 的 基础 上 ， 进 一 步 在 决策 树 的 训练 过 程 中 引入 了 随机 属性 选择 。 
具体 来 讲 ， 传 统 决策 树 在 选择 划分 属性 时 ， 在 当前 节点 的 属性 集合 (假设 有 d 个 
属性 ) 中 选择 一 个 最 优 属性 ; 而 在 随机 森林 中 ， 对 基 决 策 树 的 每 个 节点 ， “a 
点 的 属性 集合 中 随机 选择 一 个 包含 k 个 属性 的 子 集 ， 然 后 再 从 这 个 子 集中 选 
个 最 优 属性 用 于 划分 。 这 里 的 参数 k 控制 了 随机 性 的 引入 程度 。 若 令 kad ， M 


选择 用 于 回归 ， 即 k=1/3d 。 在 源码 分 析 中 会 详细 介绍 。 


可 以 看 出 ， 随 机 森林 对 Bagging 只 做 了 小 改动 ， 但 是 与 Bagging PRET 
器 的 “多 样 性 "仅仅 通过 样本 扰动 (通过 对 初始 训练 集 采 样 ) 而 来 不 同 ， 随 机 森林 中 
基 学 习 器 的 多 样 性 不 仅 来 自 样本 扰动 ， 还 来 自 属性 扰动 。 这 使 得 最 终 集 成 的 泛 化 性 
能 可 通过 个 体 学 习 器 之 间 差 异 度 的 增加 而 进一步 提升 。 


3 随机 森林 在 分 布 式 环境 下 的 优化 策略 


随机 森林 算法 在 单机 环境 下 很 容易 实现 ， 但 在 分 布 式 环境 下 特别 是 
在 Spark 平台 上 ， 传 统 单机 形式 的 迭代 方式 必须 要 进行 相应 改进 才能 适用 于 分 布 
式 环境 ， 这 是 因为 在 分 布 式 环境 下 ， 数 据 也 是 分 布 式 的 ， 算 法 设计 不 得 当 会 生成 大 
量 的 IO 操作 ， 例 如 频繁 的 网 络 数据 传输 ， 从 而 影响 算法 效率 。 因此 ， 
在 Spark 上 进行 随机 森林 算法 的 实现 ， 需 要 进行 一 定 的 优化 ， Spark 中 的 随机 
森林 算法 主要 实现 了 三 个 优化 策略 : 


e 切 分 点 抽样 统计 ， 如 下 图 所 示 。 在 单机 环境 下 的 决策 树 对 连续 变量 进行 切 分 点 
选择 时 ， 一 般 是 通过 对 特征 点 进行 排序 ， 然 后 取 相 邻 两 个 数 之 间 的 点 作为 切 分 
点 ， 这 在 单机 环境 下 是 可 行 的 ， 但 如 果 在 分 布 式 环境 下 如 此 操作 的 话 ， 会 带 来 
大 量 的 网 络 传输 操作 ， 特 别 是 当 数 据 量 达 到 PB 级 时 ， 和 工法 效率 将 极为 低下 。 
为 避免 该 问题 ， Spark 中 的 随机 森林 在 构建 决策 权时， 会 对 各 分 区 采用 一 定 
的 子 特征 策略 进行 抽样 ， 然 后 生成 各 个 分 区 的 统计 数据 ， 并 最 终 得 到 切 分 点 。 
(从 源 代码 里 面 看 ， 是 先 对 样本 进行 抽样 ， 然 后 根据 抽样 样本 值 出 现 的 次 数 进行 
排序 ， 然 后 再 进行 切 分 ) 。 
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特征 装 箱 ( Binning ) ， 如 下 图 所 示 。 决 策 树 的 构建 过 程 就 是 对 特征 的 取 值 
不 断 进 行 划 分 的 过 程 ， 对 于 离散 的 特征 ， 如 果 有 M 个 值 ， 最 多 有 2^(M-1) - 
1 个 划分 。 如 果 值 是 有 序 的 ， 那 么 就 最 多 M-1 个 划分 。 比如 年 龄 特征 ， 有 
老 ， 中 ， 少 3 个 值 ， 如果 无 序 有 2A2-1=3 个 划分 ， 即 老 | 中 ， 少 ; 老 ， 中 | 少 ; 
老 ， 少 | 中 o i 如 果 是 有 序 的 ， 即 按 老 ， 中 ， 少 的 序 ， 那 么 只 有 ma 个 ， 即 2 
种 划分 ， 老 | 中 ， 少 ; 老 ， 中 | 少 。 对 于 连续 的 特征 ， 其 实 就 是 进行 范围 划 
分 ， 而 划分 的 点 就 是 split (WTA) ， 划 分 出 的 区 间 就 是 bin 。 对 于 连 
续 特征 ， 理 论 上 split 是 无 数 的 ， 在 分 布 环境 下 不 可 能 取出 所 有 的 值 ， 因 此 
它 采 用 的 是 切 点 抽样 统计 方法 。 
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逐 层 训练 ( level-wise training ) ， 如 下 图 所 示 。 单 机 版 本 的 决策 树 生成 
过 程 是 通过 递归 调用 (本 质 上 是 深度 优先 ) 的 方式 构造 树 ， 在 构造 树 的 同时 ， 
需要 移动 数据 ， 将 同一 个 子 节点 的 数据 移动 到 一 起 。 此 方法 在 分 布 式 数据 结构 
上 无 法 有 效 的 执行 ， 而 且 也 无 法 执行 ， 因 为 数据 太 大 ， 无 法 放 在 一 起 ， 所 以 在 
分 布 式 环境 下 采用 的 策略 是 逐 层 构建 树 节 点 (本质 上 是 广度 优先 ) ， 这 样 遍历 
所 有 数据 的 E ERE 的 最 大 层 数 。 每 次 遍历 时 ， 只 需要 计算 每 个 节点 
所 有 切 分 点 统计 参数 ， 遍 历 完 后 ， 根 据 节点 的 特征 划分 ， 决 定 是 否 切 分 ， 以 及 
如 何 切 分 


Split candidates Cached Dataset 
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4 使 用 实例 
下 面 的 例子 用 于 分 类 。 


import org.apache.spark.mllib.tree.RandomForest 

import org.apache.spark.mllib.tree.model.RandomForestModel 
import org.apache.spark.mllib.util.MLUtils 

// Load and parse the data file. 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample libsvm 
data.txt") 

// Split the data into training and test sets (309; held out for 
testing) 

val splits - data.randomSplit(Array(0.7, 0.3)) 

val (trainingData, testData) = (splits(0), splits(1)) 

// Train a RandomForest model. 

// 空 的 类 别 特征 信息 表示 所 有 的 特征 都 是 连续 的 ， 


val numClasses = 2 


val categoricalFeaturesInfo = Map[Int, Int]() 
val numTrees = 3 // Use more in practice. 
val featureSubsetStrategy = "auto" // Let the algorithm choose. 
val impurity = "gini" 
val maxDepth = 4 
val maxBins = 32 
val model = RandomForest.trainClassifier(trainingData, numClasse 
s, categoricalFeaturesInfo, 

numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins) 
// Evaluate model on test instances and compute test error 
val labelAndPreds = testData.map { point => 

val prediction = model.predict(point.features) 

(point.label, prediction) 
} 
val testErr = labelAndPreds.filter(r => r._1 != r._2).count.toDo 
uble / testData.count() 
println("Test Error = " + testErr) 
println("Learned classification forest model:\n" + model.toDebug 
String) 


下 面 的 例子 用 于 回归 。 


import org.apache.spark.mllib.tree.RandomForest 

import org.apache.spark.mllib.tree.model.RandomForestModel 
import org.apache.spark.mllib.util.MLUtils 

// Load and parse the data file. 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample libsvm 
data-txt^4^) 

// Split the data into training and test sets (309; held out for 
testing) 

val splits - data.randomSplit(Array(0.7, 0.3)) 

val (trainingData, testData) = (splits(0), splits(1)) 


// Train a RandomForest model. 
// 空 的 类 别 特征 信息 表示 所 有 的 特征 都 是 连续 的 
val numClasses = 2 
val categoricalFeaturesInfo = Map[Int, Int]() 
val numTrees = 3 // Use more in practice. 
val featureSubsetStrategy = "auto" // Let the algorithm choose. 
val impurity = "variance" 
val maxDepth = 4 
val maxBins = 32 
val model = RandomForest.trainRegressor(trainingData, categorica 
lFeaturesInfo, 
numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins) 
// Evaluate model on test instances and compute test error 
val labelsAndPredictions = testData.map { point => 
val prediction - model.predict(point.features) 
(point.label, prediction) 
} 
val testMSE = labelsAndPredictions.map{ case(v, p) => math.pow(( 
V - p), 2)}.mean() 
println("Test Mean Squared Error = " + testMSE) 
println("Learned regression forest model:\n" + model.toDebugsStri 


ng) 


5 源码 分 析 


5.1 训练 分 析 


训练 过 程 简单 可 以 分 为 两 步 ， 第 一 步 是 初始 化 ， 第 二 步 是 迭代 构建 随机 森林 。 
这 两 大 步 还 分 为 若干 小 步 ， 下 面 会 分 别 介绍 这 些 内 容 。 


5.1.1 初始 化 


val retaggedInput = input.retag(classOf[LabeledPoint]) 

// 建 立 决 策 树 的 元 数据 信息 (分裂 点 位 置 、 箱 子 数 及 各 箱子 包含 特征 属性 的 值 等 ) 

val metadata = 
DecisionTreeMetadata.buildMetadata(retaggedInput, strategy, 

numTrees, featureSubsetStrategy) 

// 找 到 切 分 点 (splits) 及 箱子 信息 (Bins) 

// 对 于 连续 型 特征 ， 利 用 切 分 点 抽样 统计 简化 计算 

bar OE ea 如 果 是 无 序 的 ， 则 最 多 有 个 splits=24(numBins-1)-1 划分 

// 如 果 是 有 序 的 ， 则 最 多 有 splits=numBins-1 个 划分 

val ies bins) = DecisionTree.findSplitsBins(retaggedInput, 

metadata) 

// 转 换 成 树 形 的 RDD 类 型 ， 转 换 后 ， 所 有 样本 点 已 经 按 分 裂 点 条 件 分 到 了 各 自 的 箱子 中 


val treeInput = TreePoint.convertToTreeRDD(retaggedInput, bins, 
metadata) 
val withReplacement = if (numTrees > 1) true else false 
// convertToBaggedRDD 方法 使 得 每 棵 树 就 是 样本 的 一 个 子 集 
val baggedInput = BaggedPoint.convertToBaggedRDD(treeInput, 
strategy.subsamplingRate, numTrees, 
withReplacement, seed).persist(StorageLevel.MEMORY AND 
- DISK) 
// 决 策 树 的 深度 ， 最 大 为 30 
val maxDepth = strategy.maxDepth 
// 有 聚合 的 最 大 内 存 
val maxMemoryUsage: Long = strategy.maxMemoryInMB * 1024L * 1024 
L 
val maxMemoryPerNode = { 
val featureSubset: Option[Array[Int]] = if (metadata. subsamp 
lingFeatures) { 
// Find numFeaturesPerNode largest bins to get an upper 
bound on memory usage. 
Some(metadata.numBins.zipWithIndex.sortBy(- _._1) 
. take(metadata.numFeaturesPerNode) .map(_._2) ) 
) else { 


None 
} 
// 计 算 聚 合 操作 时 节点 的 内 存 
RandomForest.aggregateSizeForNode(metadata, featureSubset) * 


a rp) 


初始 化 的 第 一 步 就 是 决策 树 元 数据 信息 的 构建 。 它 的 代码 如 下 所 示 。 


def buildMetadata( 
input: RDD[LabeledPoint], 
strategy: Strategy, 
numTrees: Int, 
featureSubsetStrategy: String): DecisionTreeMetadata = { 
// 特 征 数 
val numFeatures = input.map( .features.size).take(1).headOpt 
ion.getOrElse { 
throw new IllegalArgumentException(s"DecisionTree requires 
size Of input RDD > 0, + 
s"but was given by empty one.") 
} 
val numExamples = input.count() 
val numClasses = strategy.algo match { 
case Classification => strategy.numClasses 
case Regression => 0 
} 
// 最 大 可 能 的 装 箱 数 
val maxPossibleBins = math.min(strategy.maxBins, numExamples 
) .toInt 
if (maxPossibleBins < strategy.maxBins) { 
logwarning(s"DecisionTree reducing maxBins from ${strategy 
.maxBins} to $maxPossibleBins" + 
s" (= number of training instances)") 
} 
// We check the number of bins here against maxPossibleBins. 
// This needs to be checked here instead of in Strategy sinc 
e maxPossibleBins can be modified 
// based on the number of training examples. 
// 最 大 分 类 数 要 小 于 最 大 可 能 装 箱 数 


// 这 里 categoricalFeaturesInfo 是 传 入 的 信息 ， 这 个 map 保 存 特 征 的 类 别 信 


(=> 
o 


// 例 如 ，(n->k) 表 示 特 征 k 包 含 的 类 别 有 (0,1, ..., Kk- 1) 
if (strategy.categoricalFeaturesInfo.nonEmpty) { 
val maxCategoriesPerFeature = strategy.categoricalFeatures 
Info.values.max 
val maxCategory = 
strategy.categoricalFeaturesInfo.find(_._2 == maxCategor 
iesPerFeature).get._1 
require(maxCategoriesPerFeature <= maxPossibleBins, 
s"DecisionTree requires maxBins (= $maxPossibleBins) to 
be at least as large as the " + 
s"number of values in each categorical feature, but cate 
gorical feature $maxCategory " + 
s"has $maxCategoriesPerFeature values. Considering remov 
e this and other categorical " + 
"features with a large number of values, or add more tra 
ining examples.") 
J 
val unorderedFeatures - new mutable.HashSet[Int]() 
val numBins = Array.fill[Int](numFeatures)(maxPossibleBins) 
if (numClasses > 2) { 
// BR 
val maxCategoriesForUnorderedFeature = 
((math.log(maxPossibleBins / 2 + 1) / math.log(2.0)) + 1 
).floor.toInt 
strategy.categoricalFeaturesInfo.foreach ( case (featureIn 
dex, numCategories) => 
// 如 果 类 别 特征 只 有 1 个 类 ， 我 们 把 它 看 成 连续 的 特征 
if (numCategories > 1) { 
// Decide if some categorical features should be treat 
ed as unordered features, 
// which require 2 * ((1 << numCategories - 1) - 1) b 
Ts 
// We do this check with log values to prevent overflo 
ws in case numCategories is large. 
// The next check is equivalent to: 2 * ((1 «« numCate 
gories - 1) - 1) «- maxBins 
if (numCategories «- maxCategoriesForUnorderedFeature) 


unorderedFeatures.add(featureIndex) 
numBins(featurelndex) - numUnorderedBins(numCategori 
es) 
) else ( 
numBins(featurelndex) - numCategories 


} 
) else { 
// —g Ax 
strategy.categoricalFeaturesInfo.foreach ( case (featureIn 
dex, numCategories) => 
// 如 果 类 别 特征 只 有 1 个 类 ， 我 们 把 它 看 成 连续 的 特征 
if (numCategories > 1) { 
numBins(featureIndex) = numCategories 


} 

// 设置 每 个 节点 的 特征 数 (对 随机 森林 而 言 ) ， 

val _featureSubsetStrategy = featureSubsetStrategy match { 
case "auto" => 


if (numTrees == 1) {//RRMN > 4% M ATA EAE 
uann 
} else { 


if (strategy.algo == Classification) {// 分 类 时 ， 使 用 开平 方 


"sqrt 
} else { // 回 归 时 ， 使 用 1/3 的 特征 
"onethird" 
} 
} 
case _ => featureSubsetStrategy 
} 
val numFeaturesPerNode: Int = _featureSubsetStrategy match { 


case "all" => numFeatures 

case "sqrt" => math.sqrt(numFeatures).ceil.toInt 

case "log2" => math.max(i, (math.log(numFeatures) / math.1 
0g(2)).ceil.toInt) 

case "onethird" -» (numFeatures / 3.0).ceil.toInt 


随机 森林 


new DecisionTreeMetadata(numFeatures, numExamples, numClasse 

s, numBins.max, 

strategy.categoricalFeaturesInfo, unorderedFeatures.toSet, 
numBins, 

strategy.impurity, strategy.quantileCalculationStrategy, s 
trategy.maxDepth, 

strategy.minInstancesPerNode, strategy.minInfoGain, numTre 
es, numFeaturesPerNode) 


j 
EOE ee 


初始 化 的 第 二 步 就 是 找到 切 分 点 ( splits ) 及 箱子 信息 ( Bins ) 。 这 
时 ， 调 用 了 DecisionTree.findSplitsBins 方法 ， 进 入 该 方法 了 解 详细 信息 。 


fie 
* Returns splits and bins for decision tree calculation. 
* Continuous and categorical features are handled differently 


* Continuous features: 

is For each feature, there are numBins - 1 possible splits r 
epresenting the possible binary 

i decisions at each node in the tree. 

n This finds locations (feature values) for splits using a 
subsample of the data. 

* 

* Categorical features: 

E For each feature, there is 1 bin per split. 

i Splits and bins are handled in 2 ways: 

à (a) "unordered features" 


a For multiclass classification with a low-arity featur 
e 

* (i.e., if isMulticlass && isSpaceSufficientForAllCate 
goricalSplits), 

d the feature is split based on subsets of categories. 

i (b) "ordered features" 

i For regression and binary classification, 

i: and for multiclass classification with a high-arity f 
eature, 

is there is one bin per category. 
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* 


* @param input Training data: RDD of [[org.apache.spark.mllib 
.regression.LabeledPoint]] 

* @param metadata Learning and dataset metadata 

* (return A tuple of (splits, bins). 


5 Splits is an Array of [[org.apache.spark.mllib.tree 
.model.Split]] 

3 of size (numFeatures, numSplits). 

2 Bins is an Array of [[org.apache.spark.mllib.tree.m 
odel.Bin]] 

P of size (numFeatures, numBins). 

ior d 


protected[tree] def findSplitsBins( 
input: RDD[LabeledPoint], 
metadata: DecisionTreeMetadata): (Array[Array[Split]], Arr 
ay[Array[Bin]]) = { 
// 特 征 数 
val numFeatures = metadata.numFeatures 
// Sample the input only if there are continuous features. 
// 判断 特征 中 是 否 存在 连续 特征 
val continuousFeatures = Range(0, numFeatures).filter(metada 
ta.isContinuous) 
val sampledInput - if (continuousFeatures.nonEmpty) ( 
// Calculate the number of samples for approximate quantil 
e calculation. 
// 采 样 样本 数量 ， 最 少 有 10000 ^ 
val requiredSamples = math.max(metadata.maxBins * metadata 
.maxBins, 10000) 
// 计 莫 采 样 比例 
val fraction = if (requiredSamples < metadata.numExamples) 


requiredSamples.toDouble / metadata.numExamples 
) else { 
Eats) 
J 
// 杀 样 数 据 ， 有 放 回 采样 
input.sample(withReplacement = false, fraction, new XORShi 
ftRandom().nextInt()) 
) else { 
input.sparkContext.emptyRDD[LabeledPoint] 


} 
// 分 裂 点 策略 ， 目 前 Spark 中 只 实现 了 一 种 策略 : 排序 Sort 
metadata.quantileStrategy match { 
case Sort => 
findSplitsBinsBySorting(sampledInput, metadata, continuo 
usFeatures) 
case MinMax => 
throw new UnsupportedOperationException("minmax not supp 
orted yet.") 
case ApproxHist => 
throw new UnsupportedOperationException("approximate his 
togram not supported yet.") 


j 


我 们 进入 findSplitsBinsBySorting 方法 了 解 Sort 分 裂 策 略 的 实现 。 


private def findSplitsBinsBySorting( 
input: RDD[LabeledPoint], 
metadata: DecisionTreeMetadata, 
continuousFeatures: IndexedSeq[Int]): (Array[Array[Split]] 
, Array[Array[Bin]]) = ( 
def findSplits( 
featureIndex: Int, 
featureSamples: Iterable[Double]): (Int, (Array[Split], 
Array[Bin])) = { 
// 每 个 特征 分 别 对 应 一 组 切 分 点 位 置 ， 这 里 SpLits 是 有 序 的 
val splits = { 
// findSplitsForContinuousFeature 返回 连续 特征 的 所 有 切 分 位 置 
val featureSplits = findSplitsForContinuousFeature( 
featureSamples.toArray, 
metadata, 
featureIndex) 
featureSplits.map(threshold => new Split(featureIndex, t 
hreshold, Continuous, Nil)) 
} 
// 存 放 切 分 点 位 置 对 应 的 箱子 信息 
val bins = { 
// 采 用 最 小 阅 值 Double.MinValue 作为 最 左边 的 分 裂 位 置 并 进行 装 孝 


val lowSplit = new DummyLowSplit(featureIndex, Continuous 


) 

//% 4 — ^8 FM HRA KAA Double.MaxValue 作为 最 右边 的 切 
分 位 置 

val highSplit = new DummyHighSplit(featureIndex, Continu 
ous) 

// tack the dummy splits on either side of the computed 
splits 


val allSplits = lowSplit +: splits.toSeq :+ highSplit 
// 将 切 分 点 两 两 结合 成 一 个 箱子 
allSplits.sliding(2).map { 
case Seq(left, right) => new Bin(left, right, Continuo 
us, Double.MinValue) 
}.toArray 
j 


(featureIndex, (splits, bins)) 
} 
val continuousSplits = { 
// reduce the parallelism for split computations when ther 
e are less 
// continuous features than input partitions. this prevent 
s tasks from 
// being spun up that will definitely do no work. 
val numPartitions = math.min(continuousFeatures.length, in 
put.partitions.length) 
input 
.flatMap(point => continuousFeatures.map(idx => (idx, po 
int.features(idx)))) 
.groupByKey(numPartitions) 
.map ( case (k, v) -» findSplits(k, v) ) 
.cCollectAsMap() 
} 
val numFeatures = metadata.numFeatures 
// 遍 历 所 有 特征 
val (splits, bins) = Range(0, numFeatures).unzip { 
// 处 理 连 续 特 征 的 情况 
case i if metadata.isContinuous(i) => 
val (split, bin) - continuousSplits(i) 
metadata.setNumSplits(i, split.length) 
(split, bin) 


// 处 理 离散 特征 且 无 序 的 情况 
case i if metadata.isCategorical(i) && metadata.isUnordere 
d(i) => 
// Unordered features 
// 2^(maxFeatureValue - 1) - 1 combinations 
val featureArity = metadata.featureArity(i) 
val split = Range(0, metadata.numSplits(i)).map ( splitI 
ndex => 
val categories = extractMultiClassCategories(splitInde 
x + 1, featureArity) 
new Split(i, Double.MinValue, Categorical, categories) 
} 
// For unordered categorical features, there is no need 
to construct the bins. 
// since there is a one-to-one correspondence between th 
e splits and the bins. 
(split.toArray, Array.empty[Bin] ) 
// 处 理 离散 特征 且 有 序 的 情况 
case i if metadata.isCategorical(i) => 
// 有 序 特征 无 需 处 理 ， 箱 子 与 特征 值 对 应 
// Ordered features 
// Bins correspond to feature values, so we do not need 
to compute splits or bins 
// beforehand. Splits are constructed as needed during 
training. 
(Array.empty[Split], Array.empty[Bin] ) 
} 
(splits.toArray, bins.toArray) 





EU 到 


计算 连续 特征 的 所 有 切 分 位 置 需要 调用 方 
法 findSplitsForContinuousFeature 方法 。 


private[tree] def findSplitsForContinuousFeature( 
featureSamples: Array[Double], 
metadata: DecisionTreeMetadata, 
featureIndex: Int): Array[Double] = { 
val splits = { 
/ [302 Ke bind KH 1 > PPm-1 


val numSplits = metadata.numSplits(featureIndex) 
// 【特征 ， 特 征 出 现 的 次 数 ) 
val valueCountMap = featureSamples.foldLeft(Map.empty[Doub 


le, Int]) { (m, x) => 


eturn 


m+ ((x, m.getOrElse(x, 0) + 1)) 
j 
// 根据 特征 进行 排序 
val valueCounts = valueCountMap.toSeq.sortBy( . 1).toArray 
// if possible splits is not enough or just enough, just r 
all possible splits 
val possibleSplits = valueCounts.length 
// 如 果 特 征 数 小 于 切 分 数 ， 所 有 特征 均 作 为 切 分 点 
if (possibleSplits <= numSplits) { 
valueCounts.map(_._1) 
) else { 
// 切 分 点 之 间 的 步 长 
val stride: Double = featureSamples.length.toDouble / (n 


umSplits + 1) 


val splitsBuilder = Array.newBuilder [Double] 
var index = 1 
// currentCount: sum of counts of values that have been 


visited 


ed by 


// 第 一 个 特征 的 出 现 次 数 
var currentCount = valueCounts(9). 2 
// targetCount: target value for "currentCount'. 
// If currentCount is closest value to “targetCount’, 
// then current value is a split threshold. 
// After finding a split threshold, ^targetCount' is add 
stride. 
// d«XXcurrentCount 4targetCount mit > Jf zs 2: 3j 48 63 2 A 
var targetCount - stride 
while (index < valueCounts.length) { 
val previousCount - currentCount 
currentCount += valueCounts(index). 2 
val previousGap - math.abs(previousCount - targetCount 


val currentGap - math.abs(currentCount - targetCount) 
// If adding count of current value to currentCount 
// makes the gap between currentCount and targetCount 


smaller, 


// previous value is a split threshold. 

if (previousGap < currentGap) { 
splitsBuilder += valueCounts(index - 1). 1 
targetCount += stride 


} 
index += 1 
} 
splitsBuilder.result() 
} 
} 
splits 


5.1.2 2k X44] E Fl UAR 


// 节 点 是 否 使 用 缓存 ， 节 点 ID 从 1 开始，1 即 为 这 颗 树 的 根 节 点 ， 左 节点 为 2， 
右 节 点 T 3， 依 次 递增 下 去 
val nodeIdCache = if (strategy.useNodelIdCache) { 
Some (NodelIdCache. init ( 
data = baggedInput, 
numTrees = numTrees, 
checkpointInterval = strategy.checkpointInterval, 
initVal - 1)) 
) else { 
None 
} 
// FIFO queue of nodes to train: (treeIndex, node) 
val nodeQueue = new mutable.Queue[(Int, Node)]() 
val rng = new scala.util.Random() 
rng.setSeed(seed) 
// Allocate and queue root nodes. 
// 创 建树 的 根 节点 
val topNodes: Array[Node] = Array.fill[Node](numTrees) (Node.empt 
yNode(nodeIndex = 1)) 

( 树 的 索引 ， 树 的 根 节点 ) 入 队 ， 树 索引 从 0 开始 ， 根 节点 从 1 开始 
Range(9, numTrees).foreach(treeIndex => nodeQueue.enqueue((treeI 
ndex, topNodes(treeIndex)))) 
while (nodeQueue.nonEmpty) { 

// Collect some nodes to split, and choose features for each 

node (if subsampling). 

// Each group of nodes may come from one or multiple trees, 
and at multiple levels. 

// 取得 每 个 树 所 有 需要 切 分 的 节点 ,nodesForGroup 表 示 需 要 切 分 的 节点 

val (nodesForGroup，treeToNodeToIndexInfo) = 

RandomForest.selectNodesToSplit(nodeQueue, maxMemoryUsag 
e, metadata, rng) 
// 找 出 最 优 切 点 
DecisionTree.findBestSplits(baggedInput, metadata, topNodes, 
nodesForGroup, 
treeToNodeToIndexInfo, splits, bins, nodeQueue, timer, n 
odeIdCache = nodeIdCache) 


j 


这 里 有 两 点 需要 重点 介绍 ， 第 一 点 是 取得 每 个 树 所 有 需要 切 分 的 节点 ， 通 
过 RandomForest.selectNodesToSplit 方法 实现 ; 第 二 点 是 找 出 最 优 的 切 分 ， 
通过 DecisionTree.findBestSplits 方法 实现 。 下 面 分 别 介绍 这 两 点 。 


© 取得 每 个 树 所 有 需要 切 分 的 节点 


private[tree] def selectNodesToSplit( 
nodeQueue: mutable.Queue[(Int, Node)], 
maxMemoryUsage: Long, 
metadata: DecisionTreeMetadata, 
rng: scala.util.Random): (Map[Int, Array[Node]], Map[Int, 
Map[Int, NodeIndexInfo]]) - ( 
// nodesForGroup 保 存 需 要 切 分 的 节点 ，treeIndex --» nodes 
val mutableNodesForGroup = new mutable.HashMap[Int, mutable. 
ArrayBuffer [Node] ]() 
// mutableTreeToNodeToIndexInfo 保 存 每 个 节点 中 选中 特征 的 索引 
// treeIndex --> (global) node index --> (node index in grou 
p, feature indices) 
//(global) node index 是 树 中 的 索引 ， 组 中 节点 索引 的 范围 是 [0，numNode 
SInGroup ) 
val mutableTreeToNodeToIndexInfo = 
new mutable.HashMap[Int, mutable.HashMap[Int, NodeIndexInfo 
110 
var memUsage: Long - OL 
var numNodesInGroup = 0 
while (nodeQueue.nonEmpty && memUsage < maxMemoryUsage) { 
val (treelndex, node) - nodeQueue.head 
// Choose subset of features for node (if subsampling). 
// 选中 特征 子 集 
val featureSubset: Option[Array[Int]] = if (metadata.subsa 
mplingFeatures) { 
Some (SamplingUtils.reservoirSampleAndCount(Range(0, 
metadata.numFeatures).iterator, metadata.numFeaturesPe 
rNode, rng.nextLong). 1) 
) else ( 
None 
} 
// Check if enough memory remains to add this node to the 
group. 
// 检查 是 否 有 足够 的 内 存 


val nodeMemUsage = RandomForest.aggregateSizeForNode(metad 
ata, featureSubset) * 8L 
if (memUsage + nodeMemUsage <= maxMemoryUsage) { 
nodeQueue. dequeue( ) 
mutableNodesForGroup.getOrElseUpdate(treeIndex, new muta 
ble.ArrayBuffer[Node]()) += node 
mutableTreeToNodeToIndexInfo 
.getOrElseUpdate(treeIndex, new mutable.HashMap[Int, N 
odeindexInfo]())(node.id) 
- new NodeIndexInfo(numNodesInGroup, featureSubset) 
} 
numNodesInGroup += 1 
memUsage += nodeMemUsage 
} 
// 将 可 变 map 转 换 为 不 可 变 map 
val nodesForGroup: Map[Int, Array[Node]] = mutableNodesForGr 
oup.mapValues(_.toArray).toMap 
val treeToNodeToIndexInfo = mutableTreeToNodeToIndexInfo.map 
Values(  .toMap).toMap 
(nodesForGroup, treeToNodeToIndexInfo) 


4 Say nj 


e 选中 最 优 切 分 


// 所 有 可 切 分 的 节点 
val nodes = new Array[Node](numNodes) 
nodesForGroup.foreach { case (treeIndex, nodesForTree) => 
nodesForTree.foreach { node => 
nodes(treeToNodeToIndexInfo(treeIndex) (node.id).nodeIndexIn 
Group) = node 
} 
} 
// In each partition, iterate all instances and compute aggregat 
e stats for each node, 
// yield an (nodeIndex, nodeAggregateStats) pair for each node. 
// After a 'reduceByKey' operation, 
// stats of a node will be shuffled to a particular partition an 
d be combined together, 
// then best splits for nodes are found there. 


// Finally, only best Splits for nodes are collected to driver t 
o construct decision tree. 
// 获 取 节 点 对 应 的 特征 
val nodeToFeatures = getNodeToFeatures(treeToNodeToIndexInfo) 
val nodeToFeaturesBc = input.sparkContext.broadcast(nodeToFeatur 
es) 
val partitionAggregates : RDD[(Int, DTStatsAggregator)] - if (no 
deldCache.nonEmpty) { 
input.zip(nodelIdCache.get.nodeldsForInstances).mapPartitions 
{ points => 
// Construct a nodeStatsAggregators array to hold node agg 
regate stats, 
// each node will have a nodeStatsAggregator 
val nodeStatsAggregators = Array.tabulate(numNodes) { node 
Index => 
// 节 点 对 应 的 特征 集 
val featuresForNode = nodeToFeaturesBc.value.flatMap { 
nodeToFeatures => 
Some (nodeToFeatures(nodeIndex) ) 
} 
// DTStatsAggregator， 其 中 引用 了 ImpurityAggregator， 给 
计算 不 纯度 impurity 的 逻辑 
new DTStatsAggregator(metadata, featuresForNode) 


j 
// 迭代 当前 分 区 的 所 有 对 象 ， 更 新 聚合 统计 信息 ， 统 计 信 息 即 采样 数据 的 权重 值 


points.foreach(binSeqOpWithNodeIdCache(nodeStatsAggregator 
S, _)) 

// transform nodeStatsAggregators array to (nodeIndex, nod 
eAggregateStats) pairs, 

// which can be combined with other partition using “reduc 
eByKey 

nodeStatsAggregators.view. ZipwithIndex.map(_.swap).iterato 


j 
) else { 


input.mapPartitions { points => 
// Construct a nodeStatsAggregators array to hold node a 
goregatemstats, 
// each node will have a nodeStatsAggregator 


val nodeStatsAggregators = Array.tabulate(numNodes) { no 
deIndex => 
// 节 点 对 应 的 特征 集 
val featuresForNode = nodeToFeaturesBc.value.flatMap { 
nodeToFeatures => 
Some (nodeToFeatures(nodeIndex ) ) 
} 
// DTStatsAggregator， 其 中 引用 了 ImpurityAggregator > % di 
计算 不 纯度 impurity 的 逻辑 
new DTStatsAggregator(metadata, featuresForNode) 
} 
// 和 迭代 当前 分 区 的 所 有 对 象 ， 更 新 聚合 统计 信息 
points. foreach(binSeqOp(nodeStatsAggregators,  )) 
// transform nodeStatsAggregators array to (nodeIndex, n 
odeAggregateStats) pairs, 
// which can be combined with other partition using ‘red 


uceByKey ` 
nodeStatsAggregators.view.zipWithIndex.map( .swap).itera 
tor 
j 
j 


val nodeToBestSplits - partitionAggregates.reduceByKey((a, b) -» 
a.merge(b)) 
.map ( case (nodeIndex, aggStats) -» 
val featuresForNode = nodeToFeaturesBc.value.map { nod 
eToFeatures => 
nodeToFeatures(nodeIndex) 
J 
// find best split for each node 
val (split: Split, stats: InformationGainStats, predict: Pre 
dict) - 
binsToBestSplit(aggStats, splits, featuresForNode, nodes 
(nodeIndex) ) 
(nodeIndex, (split, stats, predict) ) 
}.collectAsMap() 


到 = TR | 


该 方法 中 的 关键 是 对 binsToBestSplit 方法 的 调用 ， binsToBestSplit 7 
法 代码 如 下 : 


private def binsToBestSplit( 
binAggregates: DTStatsAggregator, 
splits: Array[Array[Split]], 
featuresForNode: Option[Array[Int]], 
node: Node): (Split, Mna ae Predict) = { 
// 如 果 当 前 节点 是 根 节 点 ， 计 算 预 测 和 不 纯 / 
val level = 人 
var predictWithImpurity: Option[(Predict, Double)] = if (lev 
= 0) t 
None 
} else { 
Some((node.predict, node.impurity) ) 
} 
// 对 各 特征 及 切 分 点 ， 计 算 其 信息 增益 并 从 中 选择 最 优 (feature, split) 
val (bestSplit, bestSplitStats) = 
Range(9, binAggregates.metadata.numFeaturesPerNode).map { 
featureIndexIdx => 
val featureIndex = if (featuresForNode.nonEmpty) { 
featuresForNode.get.apply(featureIndexIdx) 
) else { 
featurelIndexIdx 
} 
val numSplits = binAggregates.metadata.numSplits(featureIn 
dex) 
// 特 征 为 连续 值 的 情况 
if (binAggregates.metadata.isContinuous(featureIndex)) { 
// Cumulative sum (scanLeft) of bin statistics. 
// Afterwards, binAggregates for a bin is the sum of agg 
regates for 
// that bin + all preceding bins. 
val nodeFeatureOffset = binAggregates.getFeatureOffset(f 
eatureIndexIdx) 
var splitIndex = 0 
while (splitIndex < numSplits) { 
binAggregates.mergeForFeature(nodeFeatureOffset, split 
Index + 1, splitIndex) 
splitIndex += 1 
} 
// Find best split. 


val (bestFeatureSplitIndex, bestFeatureGainStats) = 


Range(9, numSplits).map { case splitIdx => 


leftChild X rightChild F-¥ 2% impurity 
val leftChildStats = binAggregates.getImpurityCalcul 
ator(nodeFeatureOffset, splitIdx) 

val rightChildStats = binAggregates.getImpurityCalcu 
lator(nodeFeatureOffset, numSplits) 

rightChildStats.subtract(leftChildStats) 

//R impurity 的 预测 值 ， 采 用 的 是 平均 值 计 算 
predictWithImpurity = Some(predictWithImpurity.getOr 
Else( 

calculatePredictiImpurity(leftChildStats, rightChil 


dStats))) 
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val gainStats - calculateGainForSplit(leftChildStats 


rightChildStats, binAggregates.metadata, predictWi 
thImpurity.get. 2) 
(splitIdx, gainStats) 
}.maxBy(_._2.gain) 
(splits(featureIndex)(bestFeatureSplitIndex), bestFeatur 


eGainStats) 
} 
else if (binAggregates.metadata.isUnordered(featureIndex)) 
{ 
Unordered categorical feature 
val (leftChildoffset, rightChildoffset) = 
binAggregates.getLeftRightFeatureOffsets(featureIndexI 
dx) 


val (bestFeatureSplitIndex, bestFeatureGainStats) - 
Range(9, numSplits).map { splitIndex => 

val leftChildStats = binAggregates.getImpurityCalcul 
ator(leftChildoffset, splitIndex) 

val rightChildStats = binAggregates.getImpurityCalcu 
lator(rightChildOffset, splitIndex) 

predictWithImpurity = Some(predictWithImpurity.getOr 
Else( 

calculatePredictImpurity(leftChildStats, rightChil 


dStats))) 
val gainStats - calculateGainForSplit(leftChildStats 


rightChildStats, binAggregates.metadata, predictWi 
thimpurity.get. 2) 
(splitIndex, gainStats) 
}.maxBy(_._2.gain) 
(splits(featureIndex)(bestFeatureSplitIndex), bestFeatur 
eGainStats) 
) else {// 有 序 离散 特征 时 的 情况 
// Ordered categorical feature 
val nodeFeatureOffset = binAggregates.getFeatureOffset(f 
eatureIndexIdx) 
val numBins = binAggregates.metadata.numBins(featureInde 
x) 
/* Each bin is one category (feature value). 
* The bins are ordered based on centroidForCategories, 
and this ordering determines which 
* splits are considered. (With K categories, we consid 
er K - 1 possible splits.) 
* centroidForCategories is a list: (category, centroid) 
2 
// 多 元 分 类 时 的 情况 
val centroidForCategories = if (binAggregates.metadata.i 
sMulticlass) { 
// For categorical variables in multiclass classificat 
ion, 
// the bins are ordered by the impurity of their corre 
sponding labels. 
Range(9, numBins).map { case featureValue => 
val categoryStats = binAggregates.getImpurityCalcula 
tor(nodeFeatureOffset, featureValue) 
val centroid = if (categoryStats.count != 0) { 
// impurity 求 的 就 是 均 方 差 
categoryStats.calculate() 
) else { 
Double.MaxValue 


j 


(featureValue, centroid) 


} 
} else { // 回归 或 二 元 分 类 时 的 情况 
// For categorical variables in regression and binary 
classification, 
// the bins are ordered by the centroid of their corre 
sponding labels. 
Range(90, numBins).map { case featureValue => 
val categoryStats = binAggregates.getImpurityCalcula 
tor(nodeFeatureOffset, featureValue) 
val centroid = if (categoryStats.count != 0) { 
// 求 的 就 是 平均 值 作为 impurity 
categoryStats.predict 
} else { 
Double.MaxValue 


} 


(featureValue, centroid) 


} 


// bins sorted by centroids 
val categoriesSortedByCentroid = centroidForCategories.t 
oList.sortBy(_._2) 
// Cumulative sum (scanLeft) of bin statistics. 
// Afterwards, binAggregates for a bin is the sum of agg 
regates for 
// that bin + all preceding bins. 
var splitIndex = 0 
while (splitIndex < numSplits) { 
val currentCategory = categoriesSortedByCentroid(split 
Index). 1 
val nextCategory = categoriesSortedByCentroid(splitIind 
ex + 1). 1 
// 将 两 个 箱子 的 状态 信息 进行 合并 
binAggregates.mergeForFeature(nodeFeatureOffset, nextC 
ategory, currentCategory) 
splitIndex += 1 
} 
// lastCategory = index of bin with total aggregates for 
this (node, feature) 
val lastCategory = categoriesSortedByCentroid.last. 1 
// Find best split. 


val (bestFeatureSplitIndex, bestFeatureGainStats) = 
Range(90, numSplits).map { splitIndex => 
val featureValue = categoriesSortedByCentroid(splitI 
ndex). 1 
val leftChildStats - 
binAggregates.getiImpurityCalculator(nodeFeatureOff 
set, featureValue) 
val rightChildStats = 
binAggregates.getImpurityCalculator (nodeFeatureOff 
set, lastCategory) 
rightChildStats.subtract(leftChildStats) 
predictWithImpurity = Some(predictWithImpurity.getOr 
Else( 
calculatePredictImpurity(leftChildStats, rightChil 
dStats))) 
val gainStats - calculateGainForSplit(leftChildStats 


rightChildStats, binAggregates.metadata, predictWi 
thImpurity.get. 2) 
(splitIndex, gainStats) 
}.maxBy(_._2.gain) 
val categoriesForSplit = 
categoriesSortedByCentroid.map( . 1.toDouble).slice(9, 
bestFeatureSplitIndex + 1) 
val bestFeatureSplit - 
new Split(featureIndex, Double.MinValue, Categorical, 
categoriesForSplit) 
(bestFeatureSplit, bestFeatureGainStats) 
} 
}.maxBy(_._2.gain) 
(bestSplit, bestSplitStats, predictWithImpurity.get. 1) 


5.2 预测 分 析 


在 利用 随机 森林 进行 预测 时 ， 调 用 的 predict 方法 扩展 
É TreeEnsembleModel ， 它 是 树 结构 组 合 模 型 的 表示 ， 其 核心 代码 如 下 所 示 : 


// 不 同 的 策略 采用 不 同 的 预测 方法 
def predict(features: Vector): Double = ( 
(algo, combiningStrategy) match { 
case (Regression, Sum) => 
predictBySumming( features) 
case (Regression, Average) => 
predictBySumming(features) / sumWeights 
case (Classification, Sum) => // binary classification 
val prediction = predictBySumming( features ) 
// TODO: predicted labels are +1 or -1 for GBT. Need a b 
etter way to store this info. 
if (prediction > 0.0) 1.0 else 0.0 
case (Classification, Vote) => 
predictByVoting(features) 
case _ => 
throw new IllegalArgumentException() 


} 


private def predictBySumming(features: Vector): Double = { 
val treePredictions = trees.map( .predict(features)) 
// 两 个 向 量 的 内 集 
blas.ddot(numTrees, treePredictions, i, treeWeights, 1) 


private def predictByVoting(features: Vector): Double = ( 
val votes - mutable.Map.empty[Int, Double] 
trees.view.zip(treeweights).foreach { case (tree, weight) => 
val prediction = tree.predict(features).toInt 
votes(prediction) = votes.getOrElse(prediction, 0.0) + wei 
ght 
} 
votes.maxBy(_._2)._1 
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1 Boosting 


Boosting 是 一 类 将 弱 学 习 器 提升 为 强 学 习 器 的 算法 。 这 类 算法 的 工作 机 制 类 
th: 先 从 初始 训练 集中 训练 出 一 个 基 学 习 器 ， 再 根据 基 学 习 器 的 表现 对 训练 样本 分 
布 进 行 调整 ， 使 得 先前 基 学 习 器 做 错 的 训练 样本 在 后 续 受 到 更 多 关注 。 然后 基于 调 
整 后 的 样本 分 布 来 训练 下 一 个 基 学 习 器 ; 如 此 重复 进行 ， 直 至 基 学 习 器 的 数目 达到 
事先 指定 的 值 T ， 最 终 将 这 T 个 基 学 习 器 进行 加 权 结 合 。 


Boost 算法 是 在 算法 开始 时 ， 为 每 一 个 样本 赋 上 一 个 相等 的 权重 值 ， 也 就 是 
说 ， 最 开始 的 时 候 ， 大 家 都 是 一 样 重要 的 。 在 每 一 次 训练 中 得 到 的 模型 ， 会 使 得 数 
据点 的 估计 有 所 差异 ， 所 以 在 每 一 步 结 来 后 ， 我 们 需要 对 权重 值 进行 处 理 ， 而 处 理 
的 方式 就 是 通过 增加 错 分 点 的 权重 ， 这 样 使 得 某 些 点 如 果 老 是 被 分 错 ， 那 么 就 会 
被 “严重 关注 "， 也 就 被 赋 上 一 个 很 高 的 权重 。 然后 等 进行 了 N 次 和 迭代， 将 会 得 
到 N 个 简单 的 基 分 类 器 ( basic learner ) ， 最 后 将 它们 组 合 起 来 ， 可 以 对 它 
们 进行 加 权 (48 3X ERA NAP RE BE A) o BR BAM MADRE SE M83 
A) 、 或 者 让 它们 进行 投票 等 得 到 一 个 最 终 的 模型 。 


梯度 提升 ( gradient boosting ) 属于 Boost 算法 的 一 种 ， 也 可 以 说 
是 Boost 算法 的 一 种 改进 ， 它 与 传统 的 Boost 有 着 很 大 的 区 别 ， 它 的 每 一 次 计 
算 都 是 为 了 减少 上 一 次 的 残 差 ( residual ) ;而 为 了 减少 这 些 残 差 ， 可 以 在 残 差 减 
少 的 梯度 ( Gradient ) 方 向 上 建立 一 个 新 模型 。 所 以 说 ， 在 Gradient 
Boost 中 ， 每 个 新 模型 的 建立 是 为 了 使 得 先前 模型 残 差 往 梯度 方向 减少 ， 与 传统 
的 Boost 算法 对 正确 、 错 误 的 样本 进行 加 权 有 着 极 大 的 区 别 。 


梯度 提升 算法 的 核心 在 于 ， 每 棵 树 是 从 先前 所 有 树 的 残 差 中 来 学 习 。 利 用 的 是 
当前 模型 中 损失 函数 的 负 梯 度 值 作为 提升 树 算 法 中 的 残 差 的 近似 值 ， 进 而 拟 合 一 棵 
回归 (分 类 ) 树 。 


2 梯度 提升 


根据 参考 文献 【1】 的 介绍 ， 梯 度 提 升 算法 的 算法 流程 如 下 所 示 : 


E Algorithm 1: Gradient TreeBoost 


Fo(x) = arg min, $7; , V (yi, y) 
For m — 1 to M do: 
OW(y;,F(xi)) 


Yim adim | OF(x;) , i 一 I, 


| F(x)=Fm-1 (x) 
{Rim }} = L — terminal node tree( {fm, Xi}? ) 
Yim = arg miny aT V (yi; Poi (X4) i y) 
Falk) = Pix) TP "figs LX = Rim) 

endFor 





在 上 述 的 流程 中 ， F(x) 表示 学 习 器 ， psi 表示 损失 函数 ， 第 3 行 
的 y im 表示 负 梯 度 方 向 ， 第 4 行 的 R_lm 表示 原 数据 改变 分 布 后 的 数据 。 


在 MLlib 中 ， 提 供 的 损失 函数 有 三 种 。 如 下 图 所 示 。 


Loss Task Formula Description 


Log Loss Classification 2 sed " log(1 + exp( 2y; F(z,))) Twice binomial negative log likelihood 


Squared Regression = (Yi F(z;))? Also called L2 loss. Default loss for regression tasks 
Error 

Absolute Regression edt ly; — F(z.)| Also called L1 loss. Can be more robust to outliers 
Error than Squared Error. 


第 一 个 对 数 损失 用 于 分 类 ， 后 两 个 平方 误差 和 绝对 误差 用 于 回归 。 


3 随机 梯度 提升 


有 文献 证 明 ， 注 入 随机 性 到 上 述 的 过 程 中 可 以 提高 函数 估计 的 性 能 。 受 
到 Breiman 的 影响 ， 将 随机 性 作为 一 个 考虑 的 因素 。 在 每 次 迭代 中 ， 随 机 的 在 训 
练 集中 抽取 一 个 子 样本 集 ， 然 后 在 后 续 的 操作 中 用 这 个 子 样本 集 代 替 全 体 样 本 。 这 
就 形成 了 随机 梯度 提升 算法 。 它 的 流程 如 下 所 示 : 


[| Algorithm 2: Stochastic Gradient-TreeBoost — 
Fo(x) = arg min, Xi- V (yi) 
For m = 1 to M do: 
[n(i)H = rand.perm (i 
Üz(i)m 三 一 T EE | 
Xn(i)) — lF(x)-Fm-i(x) | 
[Ri M. = L — terminal node tree( sym; Xa) 
Yim = arg min, De E Vy (Yai) i m= 1(X X«(i)) T 7) 
Py (x) = Prud (x) spp ^im l(x e Rim) 


endFor 


,N 
) 





4 实例 


下 面 的 代码 是 分 类 的 例子 


import org.apache.spark.mllib.tree.GradientBoostedTrees 
import org.apache.spark.mllib.tree.configuration.BoostingStrategy 


import org.apache.spark.mllib.tree.model.GradientBoostedTreesMod 
el 
import org.apache.spark.mllib.util.MLUtils 
// 准备 数据 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_ 
data.txt") 
// Split the data into training and test sets (30% held out for 
testing) 
val splits = data.randomSplit(Array(0.7, 0.3)) 
val (trainingData, testData) - (splits(0), splits(1)) 
// 训练 模型 
// The defaultParams for Classification use LogLoss by default. 
val boostingStrategy = BoostingStrategy.defaultParams("Classific 
ation") 
boostingStrategy.numIterations = 3 // Note: Use more iterations 
in practice. 
boostingStrategy.treeStrategy.numClasses = 2 
boostingStrategy.treeStrategy.maxDepth = 5 
// Empty categoricalFeaturesInfo indicates all features are cont 
inuous. 
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, 
Int]() 
val model - GradientBoostedTrees.train(trainingData, boostingStr 
ategy) 
// 用 测试 数据 评价 模型 
val labelAndPreds = testData.map { point => 

val prediction = model.predict(point.features) 

(point.label, prediction) 
} 
val testErr = labelAndPreds.filter(r => r._1 != r._2).count.toDo 
uble / testData.count() 
printin("Test Error = " + testErr) 
println("Learned classification GBT model:\n" + model. toDebugStr 
ing) 
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下 面 的 代码 是 回归 的 例子 。 


import org.apache.spark.mllib.tree.GradientBoostedTrees 
import org.apache.spark.mllib.tree.configuration.BoostingStrategy 


import org.apache.spark.mllib.tree.model.GradientBoostedTreesMod 
el 
import org.apache.spark.mllib.util.MLUtils 
// 准备 数据 
val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample libsvm_ 
data.txt") 
// Split the data into training and test sets (30% held out for 
testing) 
val splits = data.randomSplit(Array(0.7, 0.3)) 
val (trainingData, testData) = (splits(9?), splits(1)) 
// 训练 模型 
// The defaultParams for Regression use SquaredError by default. 
val boostingStrategy = BoostingStrategy.defaultParams("Regressio 
m) 
boostingStrategy.numIterations = 3 // Note: Use more iterations 
in practice. 
boostingStrategy.treeStrategy.maxDepth = 5 
// Empty categoricalFeaturesInfo indicates all features are cont 
inuous. 
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, 
Int]() 
val model = GradientBoostedTrees.train(trainingData, boostingStr 
ategy ) 
// 用 测试 数据 评价 模型 
val labelsAndPredictions = testData.map { point => 

val prediction = model.predict(point.features) 

(point.label, prediction) 
} 
val testMSE = labelsAndPredictions.map{ case(v, p) => math.pow(( 
V - p), 2)}.mean() 
println("Test Mean Squared Error = " + testMSE) 
println("Learned regression GBT model:\n" + model.toDebugString) 


aT 





5 源码 分 析 


5.1 训练 分 析 


梯度 提升 树 的 训练 从 run 方法 开始 。 


def run(input: RDD[LabeledPoint]): GradientBoostedTreesModel = { 
val algo = boostingStrategy.treeStrategy.algo 
algo match { 
case Regression => 
GradientBoostedTrees.boost(input, input, boostingStrateg 
y, validate = false) 
case Classification => 
M Map labels to -1, +1 so binary classification can be 
treated as regression. 
val remappedInput = input.map(x => new LabeledPoint((x.1 
abel * 2) - 1, x.features)) 
GradientBoostedTrees.boost(remappedInput, remappedInput, 
boostingStrategy, validate = false) 
case | => 
throw new IllegalArgumentException(s"$algo is not suppor 
ted by the gradient boosting.") 


} 


在 MLlib 中 ， 梯 度 提升 树 只 能 用 于 二 分 类 和 回归 。 所 以 ， 在 上 面 的 代码 中 ， 
将 标签 映射 为 -1,41 ， 那 么 二 分 类 也 可 以 被 当做 回归 。 整 个 训练 过 程 
在 GradientBoostedTrees.boost 中 实现 。 GradientBoostedTrees.boost 的 
过 程 分 为 三 步 ， 第 一 步 ， 初始化 参数 ; 第 二 步 ， 训 练 第 一 棵 树 PAG > 迭代 训练 
后 续 的 树 。 下 面 分 别 介 绍 这 三 步 。 


@ 初始 化 参数 


// 初始 化 梯度 提升 参数 
ZY ER R 次 数 ， 默 认为 100 
val numIterations = boostingStrategy.numIterations 
// &$38 
val baseLearners = new Array[DecisionTreeModel](numIterations) 
// 基 学 习 器 权重 
val baseLearnerWeights = new b een eee aes 
// 损失 部 数 ， 分 类 时 ， 用 对 数 损失 ， 回 昌 时 ， 用 误差 平方 损失 
val loss = boostingStrategy.loss 
val learningRate = boostingStrategy.learningRate 
// Prepare strategy for individual trees, which use regression w 
ith variance m 
// 回归 时 ， 使 用 方差 计算 不 纯度 
val treeStrategy = boostingStrategy.treeStrategy.copy 
val validationTol = boostingStrategy.validationTol 
treeStrategy.algo = Regression 
treeStrategy.impurity = Variance 
// 缓存 输入 数据 
val persistedInput = if (input.getStorageLevel == StorageLevel.N 
ONE) { 
input.persist(StorageLevel.MEMORY AND DISK) 
true 
) else { 
false 
} 
// Prepare periodic checkpointers 
val predErrorCheckpointer = new PeriodicRDDCheckpointer[ (Double, 
Double) ] ( 
treeStrategy.getCheckpointInterval, input.sparkContext) 
val validatePredErrorCheckpointer = new PeriodicRDDCheckpointer [ ( 
Double, Double) ]( 
treeStrategy.getCheckpointInterval, input.sparkContext) 


人 人 
e 训练 第 一 哥 树 〈 即 第 一 个 基 学 习 器 ) 
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val firstTreeModel = new DecisionTree(treeStrategy) .run(input ) 
val firstTreeWeight = 1.0 

baseLearners(0) = firstTreeModel 

baseLearnerwWeights(0) = firstTreeWeight 

var predError: RDD[(Double, Double)] = GradientBoostedTreesModel 


computeInitialPredictionAndError(input, firstTreeWeight, f 
irstTreeModel, loss) 
predErrorCheckpointer.update(predError) 


这 里 比较 关键 的 是 通 
过 GradientBoostedTreesModel.computeInitialPredictionAndError 计算 初 
始 的 预测 和 误差 。 


def computeInitialPredictionAndError ( 
data: RDD[LabeledPoint], 
initTreeWeight: Double, 
initTree: DecisionTreeModel, 
loss: Loss): RDD[(Double, Double)] = { 
data.map { lp => 
val pred = initTreeWeight * initTree.predict(lp.features) 
val error = loss.computeError(pred, lp.label) 
(pred, error) 


根据 选择 的 损失 函数 的 不 同 ， computeError 的 实现 不 同 。 


// 对 数 损失 的 实现 
override private[mllib] def computeError(prediction: Double, lab 
el: Double): Double = { 

val margin = 2.0 * label * prediction 

// The following is equivalent to 2.0 * log(1 + exp(-margin) 
) but more numerically stable. 

2.0 * MLUtils.logipExp(-margin) 
} 
/ e E E AE ARA 
override private[mllib] def computeError(prediction: Double, lab 
el: Double): Double - ( 

val err - label - prediction 

err * err 


e. 迭代 训练 后 续 树 


var validatePredError: RDD[(Double, Double)] = GradientBoostedTr 
eesModel. 
computeInitialPredictionAndError(validationInput, firstTre 

eWeight, firstTreeModel, loss) 
if (validate) validatePredErrorCheckpointer.update(validatePredE 
rror) 
var bestValidateError - if (validate) validatePredError.values.m 
ean() else 0.0 
var bestM = 1 
var m= 1 
var doneLearning = false 
while (m < numIterations && !doneLearning) { 

// Update data with pseudo-residuals 

// 根据 梯度 调整 训练 数据 

val data = predError.zip(input).map { case ((pred, _), point 
) => 


// 标 签 为 上 一 棵 树 预 测 的 数据 的 负 梯 度 方向 
LabeledPoint(-loss.gradient(pred, point.label), point.feat 
ures) 
} 
// 训 练 下 一 棵 树 


val model = new DecisionTree(treeStrategy).run(data) 


// Update partial model 
baseLearners(m) = model 
// Note: The setting of baseLearnerWeights is incorrect for 
losses other than SquaredError. 
WA Technically, the weight should be optimized for the 
particular loss. 
// However, the behavior should be reasonable, though 
not optimal. 
baseLearnerWeights(m) = learningRate 
// 更 新 预测 和 误差 
predError = GradientBoostedTreesModel.updatePredictionError( 
input, predError, baseLearnerWeights(m), baseLearners(m) 
, Loss) 
predErrorCheckpointer.update(predError) 
//3 $8 XE A o dE AAR 
if (validate) { 
// Stop training early if 
// 1. Reduction in error is less than the validationTol 
or 
// 2. If the error increases, that is if the model is ov 
erfit. 
// We want the model returned corresponding to the best 
validation error. 
validatePredError - GradientBoostedTreesModel.updatePred 
ictionError( 
validationInput, validatePredError, baseLearnerWeights 
(m), baseLearners(m), loss) 
validatePredErrorCheckpointer.update(validatePredError) 
val currentValidateError - validatePredError.values.mean 
() 
if (bestValidateError - currentValidateError < validatio 
nTol * Math.max( 
currentValidateError, 0.01)) { 
doneLearning = true 
} else if (currentValidateError < bestValidateError) { 
bestValidateError = currentValidateError 
bestM = m+ 1 


上 面 代码 最 重要 的 部 分 是 更 新 预测 和 误差 的 实现 。 通 


过 GradientBoostedTreesModel.updatePredictionError 实现 。 


def updatePredictionError( 


ght 


data: RDD[LabeledPoint], 
predictionAndError: RDD[(Double, Double)], 
treeWeight: Double, 
tree: DecisionTreeModel, 
loss: Loss): RDD[(Double, Double)] = ( 
val newPredError = data.zip(predictionAndError).mapPartition 
iter => 
iter.map { case (lp, (pred, error)) => 
val newPred = pred + tree.predict(lp.features) * treeWei 


val newError = loss.computeError(newPred, lp.label) 
(newPred, newError) 


} 


newPredError 


5.2 测试 


利用 梯度 提升 树 进行 预测 时 ， 调 用 的 predict 方法 扩展 
É TreeEnsembleModel ， 它 是 树 结构 组 合 模型 的 表示 ， 其 核心 代码 如 下 所 示 : 


// 不 同 的 策略 采用 不 同 的 预测 方法 
def predict(features: Vector): Double = ( 
(algo, combiningStrategy) match { 
case (Regression, Sum) => 
predictBySumming( features) 
case (Regression, Average) => 
predictBySumming(features) / sumWeights 
// 用 于 梯度 提升 树 ， 转 换 为 1 或 者 O 
case (Classification, Sum) => // binary classification 
val prediction = predictBySumming( features ) 
// TODO: predicted labels are +1 or -1 for GBT. Need a b 
etter way to store this info. 
if (prediction > 0.0) 1.0 else 0.0 
case (Classification, Vote) => 
predictByVoting( features) 
case _ => 
throw new IllegalArgumentException( ) 


} 

private def predictBySumming(features: Vector): Double = { 
val treePredictions = trees.map(_.predict(features) ) 
// 两 个 向 量 的 内 集 
blas.ddot(numTrees, treePredictions, 1, treeWeights, 1) 


[1] Stochastic Gradient Boost 


po 


【2】 机 器 学 习 算 法 -梯度 树 提 升 GTB (GBRT) 


保 序 回归 


1 保 序 回归 


保 序 回归 解决 了 下 面 的 问题 : 给 定 包 含 n 个 数据 点 的 序列 
y l y eee ， S MN hea ^| beta 1,beta 2,...,beta n 来 
归纳 这 个 问题 。 形 式 上 ， 这 个 问题 就 是 为 了 找到 


Biso _ 一 argmin (yi 一 8,» subject to By < e < Bri (1) 
BeR" i 


大 部 分 时 候 ， 我 们 会 在 括号 前 加 上 权重 wi 。 解 决 这 个 问题 的 一 个 方法 就 是 
pool adjacent violators algorithm(PAVA) 和 算法。 粗略 的 讲 ， Pava 算法 的 
过 程 描述 如 下 : 


我 们 从 左边 的 y_1 开始 ， 右 移 y 1 直到 我 们 遇 到 第 一 个 违例 ( violation ) 
即 yi<y i+l ， 然 后 ， 我 们 用 违例 之 前 的 所 有 y 的 平方 替换 这 些 y ， 以 满足 
单调 性 。 我 们 继续 这 个 过 程 ， 直 到 我 们 最 后 到 达 y n» 


2 近似 保 序 


给 定 一 个 序列 y ry 2,...,yn ， 我 们 寻找 一 个 近似 单调 估计 ， 考 虑 下 面 的 


n n—1l 


i . 1 2 | 
3y = argmin 3 3 "(yi — bi)? +A $ (Gi — Bin)+, (2) 


BeR" 4 j=l g=1 


上 式 中 ，X + 表示 正 数 部 分 ， 即 X + = X.1 (x>0) 。 这 是 一 个 凸 优化 问 
题 ， 处 罚 项 处 罚 违 反 单 调 性 〈 即 beta i > beta i+1 ) 的 邻近 对 。 


B 2) 中 ， 隐 含 着 一 个 假设 ， 即 使 用 等 距 的 网 格 测量 数据 点 。 如 果 情 况 


( 
> 那么 可 以 修改 悉 罚 项 为 下 面 的 形式 


n—1 


x Vs M un. 


i—l Tit+l — Vi 
x i 表示 y_i 测量 得 到 的 值 。 


近似 保 序 算法 流程 


这 个 算法 是 标准 PAVA 算法 的 修改 版 本 ， 它 并 不 从 数据 的 左 端 开始 ， 而 是 在 需 
要 时 连接 相 邻 的 点 ， 以 产生 近似 保 序 最 优 的 顺序 。 相 比 一 下 ， PAVA 对 中 间 的 序列 
并 不 特别 感 兴趣 ， 只 关心 最 后 的 序列 。 


有 下 面 一 个 引 理 成 立 。 


Lemma 1. Suppose that for some A, we have two adjacent coordinates of the solution satisfying 
Bi = By it. Then Â i= By itt for all Ap > A. 


这 个 引 理 证 明 的 事实 极 大 地 简化 了 近似 保 序 解 路 径 ( solution path ) 的 构 
造 。 假 设 在 参数 值 为 lambda 的 情况 下 ， 有 K_lambda 个 连接 块 ， 我 们 
用 A1,A2,..,A K lambda 表示 。 这 样 我 们 可 以 重 写 (2) 为 如 下 〈3) 的 形式 。 


1 Ky K)-1 
=>) > (ui — Ba! + 》 (Bu — Bass) + (3) 
" j=1 j€Ai i 一 1 


上 面 的 公式 ， 对 beta 求 偏 导 ， 可 以 得 到 下 面 的 次 梯度 公式 。 通 过 这 个 公式 即 
可 以 求 得 beta 。 


= jJ Yj + |As|By.a, + A(si = Šal = tor ¢= la NT £T (4) 
j€Ai 


为 了 符合 方便 ，; 令 s 0 = s K_lambda = 0 。 并 且 ， 


Si = EWY — BD Aia = 0). 


现在 假设 ， 当 lambda 在 一 个 区 间 内 增长 时 ， 
组 A 1,A 2, ...,A K lambda 不 会 改变 。 我 们 可 以 通过 相应 的 lambda 区 分 
(4) ° 


dÜXA,  Si-1— Si (5) 


dÀ |A] 





这 个 公式 的 值 本 身 是 一 个 常量 ， 它 意味 着 上 式 的 beta 是 lambda HALA 
随 着 lambda 的 增长 ， 方 程 (5) 将 连续 的 给 出 解决 方案 的 斜率 直到 
组 A 1,A 2,...,A K lambda 改变 。 更 加 引 理 1， 只 有 两 个 组 合并 时 ， 这 才 会 发 
生 。 mi 表示 斜率 ， 那 么 对 于 每 一 个 i-1,...,K lambda - 
1 ，Ai 和 A i+1 合并 之 后 得 时 到 的 公式 如 下 


B. A, EN B». A, ^ 
Ü i41 Lco T À, (6) 
mj; — mii 
因此 我 们 可 以 一 直 移 动 ， 直 到 lambda “下 一 个 " 值 的 到 来 
= nin 7 
4: t3.441>A ree ( ) 


HAHAH A i^star 和 A iAstar+1 ,其 中 


i" = argmin ¢t; 441. (8) 


V tiig1 >A 


注意 ， 可 能 有 超过 一 对 组 别 到 达 了 这 个 最 小 值 ， 在 这 种 情况 下 ， 会 组 合 所 有 满 
RAMA 283] oO DK (7) 和 (8) 成 立 的 条 件 是 t_i,itt KT lambda ， 如 果 没 
有 t_i,it1 大 于 lambda ， 说 明 没 有 组 别 可 以 合并 ， 算 法 将 会 终止 。 

算法 的 流程 如 下 : 


e 初始 时 ， lambda=9 > K_lambda=n , A_i={i},i=1,2,...,n 。 对 于 每 个 
1， 解 是 beta lambda,i- y i 


e 重复 下 面 过 程 
1、 通 过 公式 (5) 计算 每 个 组 的 斜率 mi 
2、 通 过 公式 (6) 计算 没 对 相 邻 组 的 碰撞 次 数 t i, its 
3、 如 果 t_i,i+1 < lambda ， 终 止 


4、 计 算 公 式 (7) 中 的 临界 点 lambda^star ,并 根据 斜率 更 新 解 


Bx» A, E BA A, -C-mi-(A*-—A) 


对 于 每 个 i ， 根 据 公 式 (8) 合并 合适 的 组 别 (所 以 K lambda^star = 
K lambda - 1 ) ， 并 设置 lambda = lambda^star ° 


4 源码 分 析 


在 1.6.x 版 本 中 ， 并 没有 实现 近似 保 序 回归 ， 后 续 会 实现 。 现 在 我 们 只 介绍 
一 般 的 保 序 回归 算法 实现 。 


4.1 实例 


import org.apache.spark.mllib.regression.[IsotonicRegression, Is 
otonicRegressionModel} 
val data = sc.textFile("data/mllib/sample_isotonic_regression_da 
Laut) 
// 创建 (label, feature, weight) tuples ， 权 重 默认 设置 为 1.9 
val parsedData = data.map { line => 
val parts = line.split(',').map(_.toDouble) 
(parts (0), parts(1), 1.0) 
} 
// Split data into training (60%) and test (40%) sets. 
val splits = parsedData.randomSplit(Array(0.6, 0.4), seed = 11L) 
val training = splits(0) 
val test = splits(1) 
// Create isotonic regression model from training data. 
// Isotonic parameter defaults to true so it is only shown for d 
emonstration 
val model = new IsotonicRegression().setIsotonic(true).run(train 
ing) 
// Create tuples of predicted and real labels. 
val predictionAndLabel = test.map { point => 
val predictedLabel - model.predict(point. 2) 
(predictedLabel, point. 1) 
} 
// Calculate mean squared error between predicted and real label 
Se 
val meanSquaredError = predictionAndLabel.map { case (p, 1) => m 
ath.pow((p - 1), 2) }.mean() 
println("Mean Squared Error = " + meanSquaredError) 


4.2 训练 过 程 分 析 


parallelPoolAdjacentViolators 方法 用 于 实现 保 序 回归 的 训 
练 。 parallelPoolAdjacentViolators 方法 的 代码 如 下 : 


private def parallelPoolAdjacentViolators( 
input: RDD[(Double, Double, Double)]): Array[(Double, Doub 
le, Double)] = { 
val parallelStepResult - input 
//Y^ (feature * label) 为 key 进行 排序 
.SortBy(x => (x... 2, x. 1)) 
. glom( )// &3F AR IF] 2- IX 84 2 48 73 — ^ 3c 2E 
.flatMap(poolAdjacentViolators) 
.collect() 
.sortBy(x => (x. 2, x. 1)) // Sort again because collect() 
doesn't promise ordering. 
poolAdjacentViolators(parallelStepResult) 


parallelPoolAdjacentViolators 方法 的 主要 实现 
是 poolAdjacentViolators 方法 ， 该 方法 主要 的 实现 过 程 如 下 : 


var i = 0 
val len = input.length 
while (i < len) { 
var j- i 
// 找 到 破坏 单调 性 的 元 祖 的 index 
while (j < len - 1 && input(j). 1 > input(j + 1). 1) { 
joy en 
} 
// 如 果 没 有 找到 违规 点 ， 移 动 到 下 一 个 数据 点 
d (a == ip ak 
i=i+1 
} else { 
// 和 否则 用 poo1 方 法 处 理 违 规 的 节点 
// 并 且 检 查 po01 之 后 ， 之 前 处 理 过 的 节点 是 否 违 反 了 单调 性 约束 
while (i >= 0 && input(i). 1 > input(i + 1). 1) ( 
pool(input, i, j) 
i-i-1 
} 
mT 


pool 方法 的 实现 如 下 所 示 。 


def pool(input: Array[(Double, Double, Double)], start: Int, end 
Int): Unit = { 
// 取 得 i 到 j 之 间 的 元 组 组 成 的 子 序列 
val poolSubArray = input.slice(start, end + 1) 
// 求 子 序列 sum (label * w) 之 和 
val weightedSum = poolSubArray.map(lp => lp. 1 * lp. 3).su 


// 求 权重 之 和 
val weight = poolSubArray.map(_._3).sum 
var i = start 
// 子 区 间 的 所 有 元 组 标签 相同 ， 即 拥有 相同 的 预测 
while (i <= end) { 

// 修 改 标 签 值 为 两 者 之 商 


input(i) = (weightedSum / weight, input(i). 2, input(i). 


经 过 上 文 的 处 理 之 后 ， input 根据 中 的 label 和 feature 均 是 按 升序 排 
列 。 对 于 拥有 相同 预测 的 点 ， 我 们 只 保留 两 个 特征 边界 点 。 


val compressed = ArrayBuffer.empty[(Double, Double, Double) ] 
var (curLabel, curFeature, curWeight) = input.head 
var rightBound = curFeature 
def merge(): Unit = { 
compressed += ((curLabel, curFeature, curWeight) ) 
if (rightBound > curFeature) { 
compressed += ((curLabel, rightBound, 0.0)) 


while (i < input.length) { 

val (label, feature, weight) = input(i) 

if (label == curLabel) { 
curWweight += weight 
rightBound - feature 

) else {// 如 果 标 签 不 同 ， 人 H 
merge() 
curLabel = label 
curFeature = feature 
curWeight = weight 
rightBound = curFeature 


} 

i += 1 
} 
merge() 


最 后 将 训练 的 结果 保存 为 模型 。 


J [r= "x 4i 
Uh ti 不 


val predictions = if (isotonic) pooled.map(_._1) else pooled.map 
(-_._1) 

val boundaries = pooled.map(_._2) 

new IsotonicRegressionModel( boundaries, predictions, isotonic) 


4.3 预测 过 程 分 析 


def predict(testData: Double): Double = { 
def linearInterpolation(x1: Double, y1: Double, x2: Double, 
y2: Double, x: Double): Double = { 
y1 + (y2 - y1) * (x - x1) / (x2 - x1) 
} 
// 二 分 查找 ijndex 
val foundIndex = binarySearch(boundaries, testData) 
val insertIndex = -foundIndex - 1 
// Find if the index was lower than all values, 
// higher than all values, in between two values or exact ma 
tcr 
if (insertIndex == 0) { 
predictions.head 
) else if (insertIndex == boundaries.length) { 
predictions.last 
) else if (foundIndex < 0) { 
linearInterpolation( 
boundaries(insertIndex - 1), 
predictions(insertIndex - 1), 
boundaries(insertIndex), 
predictions(insertIndex), 
testData) 
) else { 
predictions(foundIndex) 


当 测 试 数据 精确 匹配 一 个 边界 ， 那 么 返回 相应 的 特征 。 如 果 测 试 数据 比 所 有 边 
界 都 大 或 者 小 ， 那 么 分 别 返回 第 一 个 和 最 后 一 个 特征 。 当 测试 数据 位 于 两 个 边界 之 
间 ， 使 用 linearInterpolation 方法 计算 特征 。 这 个 方法 是 线性 内 插 法 。 


聚 类 是 一 种 无 监督 学 习 问 题 ， 它 的 目标 就 是 基于 相似 度 将 相似 的 子 集聚 合 在 一 
起 。 聚 类 经 常用 于 探索 性 研究 或 者 作为 分 层 有 监督 流程 的 一 部 分 
spark.mllib 包 中 支持 下 面 的 模型 。 


e k-means 算法 

e GMM (高 斯 混合 模型 ) 

e PIC (Bex SR ANE RA ) 

e LDA (I& ACRI SG 2-78) 
e 二 分 k-means 算 法 

e 流 式 K-means 算 法 


k-means ^ k-means++ 以 及 k- 
JA © we 
means|| 3X2 9f 
本 文 会 介绍 一 般 的 k-means 算法 、 k-meanse 算法 以 及 基于 k- 
means++ 算法 的 k-means|| 算法 。 在 spark ml ， 已 经 实现 了 k-means 算法 以 


A k-means|| 算法 。 本 文 首 先 会 介绍 这 三 个 算法 的 原理 ， 然 后 在 了 解 原理 的 基础 
上 分 析 spark 中 的 实现 代码 。 


1 k-means 算法 原理 分 析 


k-means 算法 是 聚 类 分 析 中 使 用 最 广泛 的 算法 之 一 。 它 把 n 个 对 象 根据 它 
们 的 属性 分 为 k 个 聚 类 以 便 使 得 所 获得 的 聚 类 满足 : 同一 聚 类 中 的 对 象 相 似 度 较 
高 ; 而 不 同 聚 类 中 的 对 象 相 似 度 较 小 。 


k-means 算法 的 基本 过 程 如 下 所 示 : 
e (1) 任意 选择 k Sint Pocet) c{2},...,c_ (X) 。 


。 (2) 计算 x 中 的 每 个 对 象 与 这 些 中 心 对 象 的 距离 ; 并 根据 最 小 距离 重新 对 相 
应 对 象 进行 划分 ; 


e (3) 重新 计算 每 个 中 心 对 象 $C_ 们 $ 的 值 





Io WE | 


e (4) 计 草 标准 测度 函数 ， 当 满足 一 定 条 件 ， 如 函数 收敛 时 ， 则 工法 终止 ; 如 
果 条 件 不 满足 则 重复 步骤 (2) > (3) ° 


1.1 k-means 算法 的 缺点 


k-means 算法 虽然 简单 快速 ， 但 是 存在 下 面 的 缺点 : 


e RAP SHAR K 需要 事先 给 定 ， 但 在 实际 中 K 值 的 选 定 是 非常 困难 的 ， 很 
才 


多 时 候 我 们 并 不 知道 给 定 的 数据 集 应 该 分 成 多 少 个 类 别 才 最 合适 。 


e k-means 算法 需要 随机 地 确定 初始 聚 类 中 心 ， 不 同 的 初始 聚 类 中 心 可 能 导致 
ARTS E S A XAR 


第 一 个 缺陷 我 们 很 难 在 k-means 算法 以 及 其 改进 算法 中 解决 ， 但 是 我 们 可 以 
通过 k-means++ 算法 来 解决 第 二 个 缺陷 。 


2 k-means++ 算法 原理 分 析 


k-means++ 算法 选择 初始 聚 类 中 心 的 基本 原则 是 : 初始 的 聚 类 中 心 之 间 的 相 
互 距离 要 尽 可 能 的 远 。 它 选择 初始 聚 类 中 心 的 步骤 是 : 


。 (1) 从 输入 的 数据 点 集合 中 随机 选择 一 个 点 作为 第 一 个 聚 类 中 心 $c_ (0)$ : 


(2) 对 于 数据 集中 的 每 一 个 点 x ， 计 算 它 与 最 近 聚 类 中 心 ( 指 已 选择 的 聚 类 
中 心 ) 的 距离 D(x) ， 并 根据 概率 选择 新 的 聚 类 中 心 $c_{i}$ 。 


e (3) 重复 过 程 (2) 直到 找到 k 个 聚 类 中 心 。 


第 (2) 步 中 ， 依 次 计算 每 个 数据 点 与 最 近 的 种 子 点 ( 聚 类 中 心 ) 的 距离 ， 依 次 得 
到 D(1)、D(2)、...、D(n) 构成 的 集合 D ， 其 中 n 表示 数据 集 的 大 小 。 
ED 中 ， 为 了 避免 噪声 ， 不 能 直接 选取 值 最 大 的 元 素 ， 应 该 选择 值 较 大 的 元 素 ， 
然后 将 其 对 应 的 数据 点 作为 种 子 点 。 如 何 选 择 值 较 大 的 元 素 呢 ， 下 面 是 spark 中 
实现 的 思路 。 


。 求 所 有 的 距离 和 Sum(D(x)) 


e 取 一 个 随机 值 ， 用 权重 的 方式 来 取 计 算 下 一 个 “种 子 点 "”。 这 个 算法 的 实现 是 ， 
先 用 Sum(D(x)) 乘 以 随机 值 Random 得 到 值 r > EM currsum += 
D(x) ， 直 到 其 currSum > r ， 此 时 的 点 就 是 下 一 个 “种 子 点 ”。 


为 什么 用 这 样 的 方式 呢 ? 我们 换 一 种 比较 好 理解 的 方式 来 说 明 。 把 集合 D 中 
的 每 个 元 素 D(x) 想象 为 一 根 线 L(x) ， 线 的 长 度 就 是 元 素 的 值 。 将 这 些 线 依次 
按照 L(1)^L(2)^...^L(n) 的 顺序 连接 起 来 ， 组 成 长 线 L © L(1)>L(2) >.> 
L(n) RA L WFR RIB NKR RANE L 上 随机 选择 一 个 点 ， 
那么 这 个 点 所 在 的 子 线 很 有 可 能 是 比较 长 的 子 线 ， 而 这 个 子 线 对 应 的 数据 点 就 可 以 
作为 种 子 点 。 


2.1 k-means++ 算法 的 缺点 


虽然 k-means++ 算法 可 以 确定 地 初始 化 聚 类 中 心 ， 但 是 从 可 扩展 性 来 看 ， 它 
存在 一 个 缺点 ， 那 就 是 它 内 在 的 有 序 性 特性 : 下 一 个 中 心 点 的 选择 依赖 于 已 经 选择 
的 中 心 点 。 针对 这 种 缺陷 ， k-means|| 算法 提供 了 解决 方法 。 


3 k-means|| 算法 原理 分 析 


k-means|| 算法 是 在 k-means++ 算法 的 基础 上 做 的 改进 ， 和 k- 
means++ 算法 不 同 的 是 ， 它 采用 了 一 个 采样 因子 1 ， 并 且 1=A(k) ， 
在 spark 的 实现 中 1=2k ，。 这 个 算法 首先 如 k-means++ 算法 一 样 ， 随 机 选择 
一 个 初始 中 心 ， 然 后 计 草 选 定 初始 中 心 确 定之 后 的 初始 花费 $\psi$( 指 与 最 近 中 心 点 
的 距离 )。 之 后 处 理 $log(\psi )$ 次 近代， 在 每 次 迭代 中 ， 给 定 当 前 中 心 集 ， 通 过 概率 
$ld^{2}(x,C)AphiDQ(C)$ 来 抽样 x ， 将 选 定 的 x 添加 到 初始 化 中 心 集中 ， 并 且 更 
新 $8\phi{X}(C)$。 该 算法 的 步骤 如 下 图 所 示 : 
: C — sample a point uniformly at random from X 
: V — óx(C) 


: for O(log v) times do 


C' — sample each point r € X independently with 
£-d? (z,C) 
$x(C) 


AUNE 





probability ps = 


5: Ce—Cuc' 

6: end for 

7: For z € C, set wz to be the number of points in X closer 
to x than any other point in C 

8: Recluster the weighted points in C into k clusters 


第 1 步 随 机 初始 化 一 个 中 心 点 ， 第 2-6 步 计算 出 满足 概率 条 件 的 多 个 候选 中 心 
点 C ， 候 选中 心 点 的 个 数 可 能 大 于 k 个 ， 所 以 通过 第 7-8 步 来 处 理 。 第 7 步 
给 C 中 所 有 点 赋予 一 个 权重 值 $w_{x}$ ， 这 个 权重 值 表 示 距 离 x 点 最 近 的 点 的 个 
数 。 第 8 步 使 用 本 地 k-means++ 算法 聚 类 出 这 些 候选 点 的 k 个 聚 类 中 心 。 
在 spark 的 源码 中 ， 迭 代 次 数 是 人 为 设 定 的 ， 默 认 是 5。 


该 算法 与 k-means++ 算法 不 同 的 地 方 是 它 每 次 迭代 都 会 抽样 出 多 个 中 心 点 而 
不 是 一 个 中 心 点 ， 且 每 次 迭代 不 互相 依赖 ， 这 样 我 们 可 以 并 行 的 处 理 这 个 和 迭代 过 
程 。 由 于 该 过 程 产 生出 来 的 中 心 点 的 数量 远 远 小 于 输入 数据 点 的 数量 ， 所 以 第 8 步 
可 以 通过 本 地 k-means++ 算法 很 快 的 找 出 k 个 初始 化 中 心 点 。 何 为 本 地 k- 
means++ 莫 法 ?就 是 运行 在 单个 机 器 节点 上 的 k-meanst+ 。 


下 面 我 们 详细 分 析 上 述 三 个 算法 的 代码 实现 。 


4 源 代 码 分 析 


在 spark 中 ， org.apache.spark.mllib.clustering.KMeans 文件 实现 
了 k-means 算法 以 及 k-means|| 算 
ik* org.apache.spark.mllib.clustering.LocalKMeans 文件 实现 了 k- 
means++ 算法 。 在 分 步骤 分 析 spark 中 的 源码 之 前 我 们 先 来 了 解 KMeans 类 中 
参数 的 含义 。 


class KMeans private ( 
private var k: Int,// 聚 类 个 数 
private var maxIterations: Int,// 和 迭代 次 数 
private var runs: Int,// 运 行 kmeans 算 法 的 次 数 
private var initializationMode: String,// 初 始 化 模式 
private var initializationSteps: Int,// 初 始 化 步 数 
private var epsilon: Double, //#] ®t kmeans Ë % 2 Gk AY) R4 
private var seed: Long) 


在 上 面 的 定义 中 ， k 表示 聚 类 的 个 数 ， maxIterations 表示 最 大 的 迭代 次 
数 ， runs 表示 运行 KMeans 算法 的 次 数 ， 在 spark 2.0°0 开始 ， 该 参数 已 经 
不 起 作用 了 。 为 了 更 清楚 的 理解 算法 我 们 可 以 认为 它 为 1。 

initializationMode 表示 初始 化 模式 ， 有 两 种 选择 : 随机 初始 化 和 通过 k- 
means|| 初始 化 ， 默 认 是 通过 k-means|| 初始 化 。 initializationSteps 表示 
通过 k-means|| 初始 化 时 的 迭代 步 又， 默认 是 5， 这 是 spark 实现 与 第 三 章 的 算 
法 步骤 不 一 样 的 地 方 ， 这 里 和 迭代 次 数 人 为 指定 ， 而 第 三 章 的 算法 是 根据 距 匈 得 到 的 
迭代 次 数 ， 为 log(phi) 。 epsilon 是 判断 算法 是 否 已 经 收敛 的 冰 值 。 


下 面 将 分 步骤 分 析 k-means 算法 、 k-means|| 算法 的 实现 过 程 。 
4.1 处 理 数 据 ， 转 换 为 Vectorwithnorm 集 。 


// 求 向 量 的 二 范式 ， 返 回 double 值 

val norms = data.map(Vectors.norm(_, 2.0)) 

norms.persist() 

val zippedData = data.zip(norms).map { case (v, norm) => 
new VectorWithNorm(v, norm) 


4.2 初始 化 中 心 点 


初始 化 中 心 点 根据 initializationMode 的 值 来 判断 ， 如 
果 initializationMode 等 于 KMeans.RANDOM ， 那 么 随机 初始 化 k 个 中 心 点 ， 
否则 使 用 k-means|| 初始 化 k 个 中 心 点 。 


val centers = initialModel match { 
case Some(kMeansCenters) => { 
Array(kMeansCenters.clusterCenters.map(s => new VectorWi 
thNorm(s))) 
} 
case None => { 
if (initializationMode == KMeans.RANDOM) { 
initRandom(data) 
) else { 
initKMeansParallel(data) 


e (1) 随机 初始 化 中 心 点 。 


随机 初始 化 k 个 中 心 点 很 简单 ， 具 体 代码 如 下 


private def initRandom(data: RDD[VectorWithNorm]) 
: Array[Array[VectorwithNorm]] = { 
// 采 样 国定 大 小 为 K 的 子 集 


// 这 里 run 表 :; 







未 我 们 运行 的 KMeans 算 法 的 次 数 ， 上 默认 为， 以 后 将 停止 参数 
val sample = data. e a runs * k, new XORShiftRan 
dom(this.seed).nextInt()).toSeq 


A/ /3 先 A or Av cb 3 
/ / 326 5 区 区 Kk | 9l Ei 1G ES US E 


Array.tabulate(runs)(r => sample.slice(r * k, (r + 31) * k).m 
ap { v => 


new VectorWwithNorm(Vectors.dense(v.vector.toArray), v.norm 


}.toArray) 


e (2) 通过 k-means|| 初始 化 中 心 点 。 


相 比 于 随机 初始 化 中 心 点 ， 通 过 k-means|| 初始 化 k 个 中 心 点 会 麻烦 很 
多 ， 它 需要 依赖 第 三 章 的 原理 来 实现 。 它 的 实现 方法 是 initKMeansParallel 。 
下 面 按照 第 三 章 的 实现 步骤 来 分 析 。 


e 第 一 步 ， 我 们 要 随机 初始 化 第 一 个 中 心 点 。 


val seed = new XORShiftRandom(this.seed).nextInt() 

val sample - data.takeSample(true, runs, seed).toSeq 

val newCenters - Array.tabulate(runs)(r -» ArrayBuffer(sample(r) 
.toDense)) 


e 第 二 步 ， 通 过 已 知 的 中 心 点 ， 循 环 和 迭代 求 得 其 它 的 中 心 点 。 


var step = 
while (step < initializationSteps) { 
val bcNewCenters = data.context.broadcast(newCenters) 
val preCosts = costs 
// 每 个 点 距离 最 近 中 心 的 代价 
costs = data.zip(preCosts).map { case (point, cost) => 
Array. LL eS): x r => 





b en t 





HM LAT ~% gt iby @ Lh AR ^ 
// if 2 J Al — AXE TS SE ERB 小 的 An^ 


math.min(KMeans.pointCost(bcNewCenters.value(r), poi 
nt), cost(r)) 
} 
}.persist(StorageLevel.MEMORY_AND_DISK) 
// 所 有 点 的 代价 和 
val sumCosts = costs.aggregate(new Array[Double](runs))( 


// 分 区 内 和 迭代 

seqop = (s, v) => { 
lj Sata 
var r = 0 


while (r < runs) { 
s(r) += v(r) 
r*-1 


S 
tr 
// 分 区 间 合 并 
combOp = (s0, s1) => { 
// s® += S1 
var r = 0 
while (r < runs) { 
sO(r) += si(r) 
r += 1 


SO 


) 
// 选 择 满 足 概 尘 条 件 的 点 
val chosen = data.zip(costs).mapPartitionswithIndex { (index 
, pointsWithCosts) => 


val rand = new XORShiftRandom(seed ^ (step << 16) ^ inde 


X) 
pointswithCosts.flatMap ( case (p, c) -» 
val rs = (0 until runs).filter ( r => 
//362b3t RE 1-2k 
rand.nextDouble() « 2.0 * c(r) * k / sumCosts(r) 
} 
if (rs.length > 0) Some(p, rs) else None 
} 
}.collect() 
mergeNewCenters() 
chosen.foreach { case (p, rs) => 
rs.foreach(newCenters(_) += p.toDense) 
y 
step += 1 
} 


在 这 段 代码 中 ， 我 们 并 没有 选择 使 用 log(pha) 的 大 小 作为 迭代 的 次 数 ， 而 是 
直接 使 用 了 人 为 确定 的 initializationsteps ， 这 是 与 论文 中 不 一 致 的 地 方 。 
在 和 迭代 内 部 我 们 使 用 概率 公式 


_ Ld? (zx,C) 
Pz = "$x(C) 


来 计算 满足 要 求 的 点 ， 其 中 ，1=2k 。 公 式 的 实现 如 代码 rand.nextDouble() < 
2.0 * c(r) * k / sumCosts(r) ° sumCosts 表示 所 有 点 距离 它 所 属 类 别 的 中 
心 点 的 欧式 距离 之 和 。 上 述 代码 通过 aggregate 方法 并 行 计算 获得 该 值 。 


e 第 三 步 ， 求 最 终 的 k 个 点 。 


通过 以 上 步骤 求 得 的 候选 中 心 点 的 个 数 可 能 会 多 于 k 个 ， 这 样 怎 么 办 呢 ? 我 
们 给 每 个 中 心 点 赋 一 个 权重 ， 权 重 值 是 数据 集中 属于 该 中 心 点 所 在 类 别 的 数据 点 的 
个 数 。 然后 我 们 使 用 本 地 k-meanst+ 来 得 到 这 k 个 初始 化 点 。 具 体 的 实现 代码 
如 下 : 


val bcCenters = data.context.broadcast(centers) 
val weightMap = data.flatMap { p => 
Iterator.tabulate(runs) { r => 
((r, KMeans.findClosest(bcCenters.value(r), p)._1), 1.0) 
} 


}.reduceByKey(_ +  ).collectAsMap() 
val finalCenters = (0 until runs).par.map { r => 
val myCenters = centers(r).toArray 
val myWeights = (0 until myCenters.length).map(i => weight 
Map.getOrElse((r, i), 9.0)).toArray 


LocalKMeans.kMeansPlusPlus(r, myCenters, myWeights, k, 30) 


上 述 代 码 的 关键 点 时 通过 本 地 k-means++ 算法 来 最 终 的 初始 化 点 。 它 是 通 
过 LocalKMeans.kMeansPlusPlus 来 实现 的 。 它 使 用 k-means++ 来 处 理 。 


7 E dep 
// 初 奴 化 一 个 B 


centers(0) = ee points, weights).toDense 


// 
for (i <- 1 until k) { 
// 根据 概率 比例 选择 下 一 个 中 心 点 


val curCenters = centers.view.take(i) 

// 每 个 点 的 权重 与 距离 的 乘积 和 

val sum = points.view.zip(weights).map { case (p, w) => 
w * KMeans.pointCost(curCenters, p) 

}.sum 

// 取 随机 值 

val r = rand.nextDouble() * sum 

var cumulativeScore = 0.0 

var j = 0 

// 寻 找 概 率 最 大 的 点 

while (j < points.length && cumulativeScore < r) { 
cumulativeScore += weights(j) * KMeans.pointCost(curCent 

ers, points(j)) 

jai 

} 

Ww (J 9) 
centers(i) = points(0).toDense 

} else { 
centers(i) = points(j - 1).toDense 


上 述 代码 中 ， points 指 的 是 候选 的 中 心 点 ， weights 指 这 些 点 相应 地 权 
重 。 了 寻找 概率 最 大 的 点 的 方式 就 是 第 二 章 提 到 的 方式 。 初 始 化 k 个 中 心 点 后 ， 就 
可 以 通过 一 般 的 k-means 流程 来 求 最 终 的 k 个 中 心 点 了 。 具 体 的 过 en 
到 o 


4.3 确定 数据 点 所 属 类 别 


找到 中 心 点 后 Ga 6 的 聚 类 ， 即 数据 点 和 哪个 中 心 
点 最 近 。 具 体 代 码 如 下 


Woureny ves he Sie os SS ye NS > ]} DEUM E STET SDN Se P RUSSE E 
vi De +4 4l T} TENE A o a T ~f4 5h B 2 H oyoo & 44 RE = a1 RB Sor 4 占 AAA 
// ARF) AED RAY AON Roe EM o BU XB R Fa EA AR [XS so Im] BY 
/ / Wu 扩大 JA HM UN EE A NS AN HY XE. ey TR EA ARS AN BS 7| SAC 


val totalContribs = data.mapPartitions { points => 
val thisActiveCenters = bcActiveCenters.value 
val runs = thisActiveCenters.length 
val k = thisActiveCenters(0).length 
val dims = thisActiveCenters(0)(0).vector.size 


val sums = Array.fill(runs, k)(Vectors.zeros(dims) ) 
val counts = Array.fill(runs, k)(OL) 


points.foreach { point => 
(0 until runs).foreach { i => 





Pose Dm) = LA >> 2 `r Be >) 7 n TD 
/ AX 4! ZEB oua j^] V T Ky 不 日 ]A] 以 
// 找 到 离 给 定点 最 近 的 中 心 以 及 相应 的 欧 几 


val (bestCenter, cost) = KMeans.findClosest(thisActi 
veCenters(i), point) 

costAccums(i) += cost 

/ / E. & Fe 

val sum = sums(i)(bestCenter) 

JAN) mee Gl xX 

axpy(1.0, point.vector, sum) 

// 点 数量 


counts(i)(bestCenter) += 1 


val contribs = for (i <- 0 until runs; j <- 0 until k) y 
ield { 
((i, j), (sums(i)(j), counts(i)(j))) 
j 


contribs.iterator 
).reduceByKey(mergeContribs).collectAsMap() 


4.4 重新 确定 中 心 点 


找到 类 别 中 包含 的 数据 点 以 及 它们 距离 中 心 点 的 距离 ， 我 们 可 以 重新 计算 中 心 
点 。 代 码 如 下 : 


// 38 30 P SR 
for ((run, i) <- activeRuns.zipWithIndex) { 
var changed - false 
var j = 0 
while (j < k) { 
val (sum, count) = totalContribs((i, j)) 


if (count != 0) { 


//x = a * x» RPH 4 PPsum/count 
scal(1.0 / count, sum) 


val newCenter = new VectorWithNorm(sum) 
/ / do RA AAP e 85 RAIL BAT A 
if (KMeans.fastSquaredDistance(newCenter, centers(ru 
n)(j)) > epsilon * epsilon) { 
changed = true 
} 
centers(run)(j) = newCenter 
} 
Jor 
} 
if (!changed) { 
active(run) = false 
logInfo("Run " + run + " finished in " + (iteration + 1) 
+" iterations") 


} 


costs(run) = costAccums(i).value 
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高 斯 混合 模型 


现 有 的 高 斯 模型 有 单 高 斯 模型 ( som ) 和 高 斯 混合 模型 ( GMM ) 两 种 。 
从 几何 上 讲 ， 单 高 斯 分 布 模型 m 间 上 近似 于 椭圆 ， 在 三 维 空 间 上 近似 于 
椭 球 。 在 很 多 情况 下 ， 属 于 同一 类 别 的 样本 点 并 不 满足 “椭圆” 分布 的 特性 ， 所 
以 我 们 需要 引入 混合 高 斯 模型 来 解决 这 种 情况 。 


证 ak 
1 单 高 斯 模型 
多 维 变 量 x 服从 高 斯 分 布 时 ， 它 的 概率 密度 函数 PDF 定义 如 下 : 


1 
N(x; u, £) = xp[- = (x -pu)yY'(-u) 


1 1 
— Arc 
(21) /2 (|x]) /2 


在 上 述 定 义 中 , x 是 维 数 为 D 的 样本 向 量 ， mu RAMZ > sigma 是 模型 
协 方差 。 对 于 单 高 斯 模型 ， 可 以 明确 训练 样本 是 否 属于 该 高 斯 模型 ， 所 以 我 们 经 党 
将 mu 用 训练 样本 的 均值 代替 ， 将 sigma 用 训练 样本 的 协 方差 代 蔡 。 假 设 训练 样 
本 属于 类 别 C ， 那 么 上 面 的 定义 可 以 修改 为 下 面 的 形式 : 


N&O) = pl- (- i) 5 ( 4] 


1 1 
L——PÀ32T—— P8 
(2m /2(IZD e 


这 个 公式 表示 样本 属于 类 别 C 的 概 举 。 我 们 可 以 根据 定义 的 概率 阅 值 来 判断 
是 否 


样本 是 否 属于 茶 个 类 别 。 


高 斯 混合 模型 ， 顾 名 思 义 ， 就 是 数据 可 以 看 作 是 从 多 个 高 斯 分 布 中 生成 出 来 
的 。 ee ， 高 斯 分 布 这 个 假设 其 实 是 比较 合理 的 。 为 什么 我 们 
要 假设 数据 是 由 若干 个 高 斯 分 布 c didi didi 而 不 假设 是 其 他 a 实际 上 不 管 
是 什么 分 布 ， 只 K 取得 时 足够 大 ， 这 个 XX Mixture Model 就 会 变 得 足够 复杂 ， 就 
可 以 用 来 逼近 任意 连续 的 概率 密度 分 布 。 只 是 因为 高 斯 函数 具 Dope da 
所 GMM 被 广泛 地 应 用 。 


每 个 GMM 由 K 个 高 斯 分 布 组 成 ， 每 个 高 斯 分 布 称 为 一 个 组 件 
( Component ) ， 这 些 组 件 线性 加 成 在 一 起 就 组 成 了 GMM 的 概率 密度 函数 
(1) 


K 


K 
p(x) = 9 pplk) = > m. NCxlp Ex) 
k=1 k=1 
根据 上 面 的 式 子 ， 如 果 我 们 要 从 GMM 分 布 中 随机 地 取 一 个 点 ， 需 要 两 步 : 


e 随机 地 在 这 k 个 组 件 之 中 选 一 个 ， 每 个 组 件 被 选中 的 概率 实际 上 就 是 它 的 系 
数 pik ; 


e 选中 了 组 件 之 后 ， 再 单独 地 考虑 从 这 个 组 件 的 分 布 中 选取 一 个 点 。 


怎样 用 GMM 来 做 聚 类 呢 ? 其 实 很 简单 ， 现 在 我 们 有 了 数据 ， 假 定 它们 是 
由 GMM 生成 出 来 的 ， 那 么 我 们 只 要 根据 数据 推出 GMM 的 概率 分 布 来 就 可 以 了 ， 然 
后 GMM 的 k 个 组 件 实际 上 就 对 应 了 K ^A oo 在 已 知 概率 密度 函数 的 情况 
下 ， 要 估计 其 中 的 参数 的 过 程 被 称 作 “ 参 数 估计 ”。 


我 们 可 以 利用 最 大 似 然 估计 来 确定 这 些 和 参数， GMM 的 似 然 函数 (2) 如 下 : 


N K 
X log D. merle) 


k=1 


可 以 用 EM 算法 来 求解 这 些 参 数 。 EM 算法 求解 的 过 程 如 下 : 


e 1E- 步 。 求 数据 点 由 各 个 组 件 生成 的 概率 (并 不 是 每 个 组 件 被 选中 的 概率 ) 。 
对 于 每 个 数据 $x 们 $ 来 说 ， 它 由 第 k 个 组 件 生成 的 概率 为 公式 (3) 


Y, k) = 
"a iR; N(X lH; Ery) 


在 上 面 的 概 举 公式 中 ， 我 们 假定 mu fe sigma 均 是 已 知 的 ， 它 们 的 值 来 自 于 
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e 2 M- 步 。 估 计 每 个 组 件 的 参数 。 由 于 每 个 组 件 都 是 一 个 标准 的 高 斯 分 布 ， 可 以 
很 容易 分 布 求 出 最 大 似 然 所 对 应 的 参数 值 ， 分 别 如 下 公式 (4) , (5), (6), 


N 
1 
= 一 》 i, k)x, 
Hk N, Fi )x 


N 
1 
B. 》 "- NM. 
ZK = N, A Hk)(Xi— Hk) 


3 源码 分 析 


3.1 实例 


在 分 析 源 码 前 ， 我 们 还 是 先 看 看 高 斯 混合 模型 如 何 使 用 。 


import org.apache.spark.mllib.clustering.GaussianMixture 

import org.apache.spark.mllib.clustering.GaussianMixtureModel 

import org.apache.spark.mllib.linalg.Vectors 

// 加 载 数 据 

val data = sc.textFile("data/mllib/gmm_data.txt") 

val parsedData = data.map(s => Vectors.dense(s.trim.split(' ').m 

ap(. .toDouble))).cache() 

// 使 用 高 斯 混合 模型 聚 类 

val gmm = new GaussianMixture().setK(2).run(parsedData) 

// 保存 和 加 载 模型 

gmm.save(sc, "myGMMModel") 

val sameModel = GaussianMixtureModel.load(sc, "myGMMModel") 

// 打印 参数 

for (i <- © until gmm.k) { 
printin("weight=%F\nmu=%s\nsigma=\n%s\n" format 

(gmm.weights(i), gmm.gaussians(i).mu, gmm.gaussians(i).sigma 


)) 


由 上 面 的 代码 我 们 可 以 知道 ， 使 用 高 斯 混合 模型 聚 类 使 用 到 
了 GaussianMixture 类 中 的 run 方法 。 下 面 我 们 直接 进入 run 方法 ， 分 析 它 的 
实现 。 


3.2.1 初始 化 


在 run 方法 中 ， 程 序 所 做 的 第 一 步 就 是 初始 化 权重 (上 文中 介绍 的 pi) 及 
其 相对 应 的 高 斯 分 布 。 


val (weights, gaussians) = initialModel match { 
case Some(gmm) => (gmm.weights, gmm.gaussians) 
case None => { 
val samples = breezeData.takeSample(withReplacement = tr 
ue, k * nSamples, seed) 
(Array. fil1(k)(1.0 / k), Array.tabulate(k) { i => 
val slice = samples.view(i * nSamples, (i + 1) * nSamp 
les) 
new MultivariateGaussian(vectorMean(slice), initCovari 
ance(slice) ) 


}) 


在 上 面 的 代码 中 ， 当 initialModel 为 空 时 ， 用 所 有 值 均 为 1.0/k 的 数组 初 
始 化 权重 ， 用 值 为 MultivariateGaussian 对 象 的 数组 初始 化 所 有 的 高 斯 分 布 
( 即 上 文中 提 到 的 组 件 ) 。 每 一 个 MultivariateGaussian 对 象 都 由 从 数据 集中 
抽样 的 子 集 计 算 而 来 。 这 里 用 样本 数据 的 均值 和 方差 初始 


化 MultivariateGaussian 的 mu 和 sigma ° 


private def vectorMean(x: IndexedSeq[BV[Double]]): BDV[Double] = 
t 
val v = BDV.zeros[Double](x(9).length) 
x.foreach(xi => v += xi) 
v / x.length.toDouble 
} 


private def initCovariance(x: IndexedSeq[BV[Double]]): BreezeMat 
rix[Double] = { 

val mu = vectorMean(x) 

val ss = BDV.zeros[Double](x(9).length) 

x.foreach(xi => ss += (xi - mu) :^ 2.0) 

diag(ss / x.length.toDouble) 


3.2.2 EM 算法 来 参数 


初始 化 后 ， 就 可 以 使 用 EM 算法 迭代 求 似 然 函数 中 的 参数 。 迭 代 结 束 的 条 件 是 
和 迭代 次 数 达 到 了 我 们 设置 的 次 数 或 者 两 次 迭代 计算 的 对 数 似 然 值 之 差 小 于 阅 值 。 


while (iter < maxIterations && math.abs(llh-llhp) > convergence 
Tol) 


在 迭代 内 部 ， 就 可 以 按照 E- 步 和 wo 来 更 新 参数 了 。 


e E- 步 : 更 新 参数 gamma 


val compute = sc.broadcast(ExpectationSum.add(weights, gaussian 
S)_) 

val sums = breezeData.aggregate(ExpectationSum.zero(k, d))(comp 
ute.value, _ += _) 


我 们 先 要 了 解 Expectationsum 以 及 add 方法 的 实现 。 


private class ExpectationSum( 
var logLikelihood: Double, 
val weights: Array[Double], 
val means: Array[BDV[Double] ], 
val sigmas: Array[BreezeMatrix[Double]]) extends Serializable 


El -O mj 


Expectationsum 是 一 个 聚合 类 ， 它 表示 部 分 期 望 结 果 : 主要 包含 对 数 似 然 
值 ， 权重 值 (第 二 章 中 介绍 的 pi ) ， 均 值 ， 方 差 。 add 方法 的 实现 如 下 : 


def add( weights: Array[Double],dists: Array[MultivariateGaussian 
]) 
(sums: ExpectationSum, x: BV[Double]): ExpectationSum = { 
val p = weights.zip(dists).map { 
/7 vi pi * N(x) 
case (weight, dist) => MLUtils.EPSILON + weight * dist.pdf 
(x) 
} 
val pSum = p.sum 
sums.logLikelihood += math.log(pSum) 
var i- 0 
while (i « sums.k) { 
p(i) /= pSum 
sums.weights(i) += p(i) 
sums.means(i) += x * p(i) 
//A := alpha * x * x^T^ +A 
BLAS.syr(p(i), Vectors.fromBreeze(x), 
Matrices.fromBreeze(sums.sigmas(i)).asInstanceOf[DenseMa 
trix]) 


n n————ÁÀÁÁ | 


从 上 面 的 实现 我 们 可 以 看 出 ， 最 终 ， loglikelihood 表示 公式 (2) 中 的 对 数 似 
Re p 和 weights 分 别 表示 公式 (3) 中 的 gamma 和 pi > means 表示 公式 (6) 
中 的 求 和 部 分 ， sigmas 表示 公式 (7) 中 的 求 和 部 分 。 


调用 RDD 的 aggregate 方法 ， 我 们 可 以 基于 所 有 给 定数 据 计算 上 面 的 值 。 
利用 计算 的 这 些 新 值 ， 我 们 可 以 在 M- 步 中 更 新 mu 和 sigma ° 


e M- 步 : 更 新 参数 mu 和 sigma 


var i = 0 
while (i < k) { 
val (weight, gaussian) = 
updateweightsAndGaussians(sums.means(i), sums.sigmas(i), 
sums.weights(i), sumWeights) 
weights(i) - weight 
gaussians(i) - gaussian 
i=i+1 
} 
private def updateweightsAndGaussians( 
mean: BDV[Double], 
sigma: BreezeMatrix[Double], 
weight: Double, 


sumWeights: Double): (Double, MultivariateGaussian) = { 


// mean/weight 

val mu = (mean /= weight) 

// -weight * mu * mut -sigma 

BLAS.syr(-weight, Vectors.fromBreeze(mu), 

Matrices.fromBreeze(sigma).asInstanceOf[DenseMatrix]) 

val newweight = weight / sumWeights 

val newGaussian - new MultivariateGaussian(mu, sigma / weigh 
t) 

(newWeight, newGaussian) 


基于 E- 步 计算 出 来 的 值 ， 根 据 公 式 (6)， 我 们 可 以 通过 (mean /= weight) 来 
更 新 mu ; 根据 公式 (7)， 我 们 可 以 通过 BLAS.syr() 来 更 新 sigma ; 同时 ， 根 
据 公 式 (5)， 我 们 可 以 通过 weight / sumweights 来 计算 pi 。 


逃 代 执 行 以 上 的 E- 步 和 M- 步 ， 到 达 一 定 的 选 代数 或 者 对 数 似 然 值 变化 较 小 后 ， 
我 们 停止 选 代 。 这 时 就 可 以 获得 聚 类 后 的 参数 了 。 


3.3 多 元 高 斯 模型 中 相关 方法 介绍 


在 上 面 的 求 参 代码 中 ， 我 们 用 到 了 MultivariateGaussian 以 
及 MultivariateGaussian 中 的 部 分 方法 ， 
如 pdf ° MultivariateGaussian 定义 如 下 : 


class MultivariateGaussian @Since("1.3.0") ( 


@Since("1.3.0") val mu: Vector, 
@Since("1.3.0") val sigma: Matrix) extends Serializable 


MultivariateGaussian 包含 一 个 向 量 mu feo—*4E sigma ， 分 别 表示 
Mer # MwultivariateGaussian 最 重要 的 方法 是 pdf ， 顾 名 思 义 就 是 计 


算 给 定数 据 的 概率 密度 函数 。 它 的 实现 如 下 : 


private[mllib] def pdf(x: BV[Double]): Double = { 
math.exp(logpdf(x) ) 


} 
private[mllib] def logpdf(x: BV[Double]): Double = { 


val delta = x - breezeMu 
val v = rootSigmaInv * delta 
M Vae ty gib 


Ema) rootSigmaInv 和 u 通过 方法 calculateCovarianceConstants 计 
算 。 根 据 公 式 (1T)， 这 个 概率 密度 函数 的 计算 需要 计算 sigma 的 行列 式 以 及 逆 。 


sigma = U * D * U.t 
inv(Sigma) = U * inv(D) * U.t = (D^(-1/2)^ * U.t).t * (DM -1/2}^ 


RURE) 
-0.5 * (x-mu).t * inv(Sigma) * (x-mu) = -0.5 * norm(D^(-1/2)^ * U 


„t * (x-mu))^2^ 
Bm ——————— M 


这 里 ，U 和 p EAR 2 AAS 89 FFE 
Mo calculateCovarianceConstants 具体 的 实现 代码 如 下 : 


private def calculateCovarianceConstants: (DBM[Double], Double) 
= 4 
val eigSym.EigSym(d, u) = eigSym(sigma.toBreeze.toDenseMatri 
x) 7/7 szgmna = u * diag(d) * wet 
val tol - MLUtils.EPSILON * max(d) * d.length 
Dry 1 
// 所 有 非 9 奇异 值 的 对 数 和 
val logPseudoDetSigma = d.activeValuesIterator.filter(_ > 
tol) .map(math.1log).sum 
/ /38 3k RAE RAAF AAR > HH HAM A AEF YAR EE 
val pinvS = diag(new DBV(d.map(v => if (v > tol) math.sqrt( 
1.0 / v) else 0.0).toArray)) 
(pinvS * u.t, -0.5 * (mu.size * math.log(2.0 * math.Pi) + 
logPseudoDetSigma)) 
) catch ( 
case uex: UnsupportedOperationException => 
throw new IllegalArgumentException("Covariance matrix ha 
s no non-zero singular values") 
} 
} 


E ea il 


上 面 的 代码 中 ， eigsym 用 于 分 解 sigma 4ETE o 


4 参考 文献 


[1] 漫谈 Clustering (3): Gaussian Mixture Model 


1 谱 聚 类 算法 的 原理 


在 分 析 快 速 迭 代 聚 类 之 前 ， 我 们 先 来 了 解 一 下 谱 聚 类 算法 。 谱 聚 类 算法 是 建立 
在 谱 图 理论 的 基础 上 的 算法 ， 与 传统 的 聚 类 算法 相 比 ， 它 能 在 任意 形状 的 样本 空间 
上 聚 类 且 能 够 收敛 到 全 局 最 优 解 。 谱 聚 类 算法 的 主要 思想 是 将 聚 类 问题 转换 为 无 向 
图 的 划分 问题 。 


e 首先 ， 数 据点 被 看 做 一 个 图 的 顶点 v ， 两 数据 的 相似 度 看 做 图 的 边 ， 边 的 集 
合 由 $E=A 人 { 识 $ 表 示 ， 由 此 构造 样本 数据 集 的 相似 度 和 矩阵 A ， 并 求 出 拉 普 拉 斯 
AERE L 。 

e 其 次 ， 根 据 划 分 准则 使 子 图 内 部 相似 度 尽量 大 ， 子 图 之 间 的 相似 度 尽量 小 ， 计 
算出 L 的 特征 值 和 特征 向 量 

e 最 后 ， 选 择 k 个 不 同 的 特征 向 量 对 数据 点 聚 类 


那么 如 何 求 拉 普 拉 斯 矩阵 呢 ? 


将 相似 度 矩 阵 A 的 每 行 元 素 相 加 就 可 以 得 到 该 顶点 的 度 ， 我 们 定义 以 度 为 对 
AARO AERA LE D 。 可 以 通过 A 和 D 来 确定 拉 普 拉 斯 答 阵 。 拉 普 
拉 斯 矩阵 分 为 规范 和 非 规 范 两 种 ， 规 范 的 拉 疼 拉 斯 矩阵 表示 为 L=D-A ， 非 规范 的 
拉 普 拉 斯 矩阵 表示 为 $L=|-DA{-1}A$ 。 


谱 聚 类 算法 的 一 般 过 程 如 下 : 


(1) 输入 待 聚 类 的 数据 点 集 以 及 聚 类 数 KG 

(2) 根据 相似 性 度量 构造 数据 点 集 的 拉 普 拉 斯 矩阵 LO 

e (3) 选取 L 的 前 k 个 (默认 从 小 到 大 ,这 里 的 k 和 和 聚 类 数 可 以 不 一 样 ) 特征 
值 和 特征 向 量 ， 构 造 特征 向 量 空间 (这 实际 上 是 一 个 降 维 的 过 程 ) ; 

e (4) 使 用 传统 方法 对 特征 向 量 聚 类 ， 并 对 应 于 原始 数据 的 聚 类 。 


谱 聚 类 算法 和 传统 的 聚 类 方法 (例如 K-means ) 比 起 来 有 不 少 优 点 : 


e 和 K-medoids 类 似 ， 谱 聚 类 只 需要 数据 之 间 的 相似 度 和 矩阵 就 可 以 了 ， 而 不 必 
像 k-means 那样 要 求 数 据 必 须 是 N 维 欧 氏 空间 中 的 向 量 。 


。 由 于 抓 住 了 主要 了 矛盾， 忽略 了 次 要 的 东西 ， 因 此 比 传统 的 聚 类 算法 更 加 健壮 一 
些 ， 对 于 不 规则 的 误差 数据 不 是 那么 敏感 ， 而 且 性 能 也 要 好 一 些 。 


e 计算 复杂 度 比 K-means 要 小 ， 特 别 是 在 像 文 本 数据 或 者 平凡 的 图 像 数据 这 样 
维度 非常 高 的 数据 上 运行 的 时 候 。 


快速 迭代 算法 和 谱 聚 类 算法 都 是 将 数据 点 龄 入 到 由 相似 算 阵 推导 出 来 的 低 维 子 
空间 中 ， 然 后 直接 或 者 通过 k-means 算法 产生 聚 类 结果 ， 但 是 快速 迭代 算法 有 不 
同 的 地 方 。 下 面 重点 了 解 快 速 和 迭代 算法 的 原理 。 


2 快速 迭代 算法 的 原理 


在 快速 迭代 算法 中 ， 我 们 构造 另外 一 个 矩阵 $W=D^{-1}A$ , 同 第 一 章 做 比 对 ， 
我 们 可 以 知道 W 的 最 大 特征 向 量 就 是 拉 普 拉 斯 矩阵 L 的 最 小 特征 向 量 。 我 们 知 
道 拉 普 拉 斯 矩阵 有 一 个 特性 : 第 二 小 特征 向 量 ( 即 第 二 小 特征 值 对 应 的 特征 向 量 ) 
定义 了 图 最 佳 划 分 的 一 个 解 ， 它 可 以 近似 最 大 化 划分 准则 。 更 一 般 的 ，k 个 最 小 
的 特征 向 量 所 定义 的 子 空 间 很 适合 去 划分 图 。 因此 拉 普 拉 斯 矩阵 第 二 小 、 第 三 小 直 
到 第 k 小 的 特征 向 量 可 以 很 好 的 将 图 W 划分 为 k 个 部 分 。 

EB ME L 的 k 个 最 小 特征 向 量 也 是 矩阵 W 的 k 个 最 大 特征 向 量 。 计 
算 一 个 给 阵 最 大 的 特征 向 量 可 以 通过 一 个 简单 的 方法 来 求 得 ， 那 就 是 快速 迭代 
(BP PI ) © PI 是 一 个 迭代 方法 ， 它 以 任意 的 向 量 $v^{0}$ 作 为 起 始 ， 依 照 下 面 
的 公式 循环 进行 更 新 。 


v'ti = i 


在 上 面 的 公式 中 ， c 是 标准 化 常量 ， 是 为 了 避免 $v^ 仙 $ 产 生 过 大 的 值 ， 这 里 
$c-||Wv^rtML (119. 。 在 大 多 数 情况 下 ， 我 们 只 关心 第 k (Kk 不 为 1) 大 的 特征 向 
量 ， 而 不 关注 最 大 的 特征 向 量 。 这 是 因为 最 大 的 特征 向 量 是 一 个 常 向 量 : 

为 W 每 一 行 的 和 都 为 1。 
快速 迭代 的 收敛 性 在 文献 【1】 中 有 详细 的 证 明 ， 这 里 不 再 推导 。 


快速 迭代 算法 的 一 般 步 骤 如 下 : 


Input: A row-normalized affinity matrix W and the 
number of clusters k 
Pick an initial vector v 
repeat 

Sel vt! — 


0 


ny and t [vtt — yt 
IW vt |i 

Increment £ 
until |6° — ó' !| ~ 0 
Use k-means to cluster points on v 
Output: Clusters C1, C5, ..., Cj, 


t 


4E Edad) AP > MAZE W 根据 $W=D^{-1}A$ 来 计算 。 


3 快速 迭代 算法 的 源码 实现 


在 spark 中 ， 文 
件 SO clustering. POUUPULIUTTER 实现 了 
快速 迭代 算法 。 我 们 从 官方 给 出 的 例子 出 发 来 分 析 快 速 和 迭代 算法 的 实现 。 


import org.apache.spark.mllib.clustering. {PowerIterationClusteri 
ng, PowerIterationClusteringModel} 
import org.apache.spark.mllib.linalg.Vectors 
// 加 载 和 切 分 数据 
val data = sc.textFile("data/mllib/pic_data.txt") 
val similarities = data.map { line => 
val parts = line.split(' ') 
(parts(9).toLong, parts(i).toLong, parts(2).toDouble) 


j 
72 使 用 快 3 失 代 算法 将 数据 分 为 两 类 
val pic = new PowerIterationClustering() 


.SetK(2) 
.setMaxIterations(10) 
val model - pic.run(similarities) 
/ / Arp BTA 85 X 
model.assignments.foreach { a => 
printin(s"${a.id} -> ${a.cluster}") 


在 上 面 的 例子 中 ， 我 们 知道 数据 分 为 三 列 ， 分 别 是 起 始 id， 目 标 id， 以 及 两 者 
的 相似 度 ， 这 里 的 similarities 代表 前 面 草 节 提 到 的 矩阵 A 。 有 了 数据 之 后 ， 
我 们 通过 Powerlterationclustering 的 run 方法 来 训练 模型 。 
PowerIterationClustering 类 有 三 个 参数 : 


e k : RAK 

e maxIterations : 最 大 迭代 数 

e initMode : 初始 化 模式 。 初 始 化 模式 分 为 Random 和 Degree 两 种 ， 针 对 
不 同 的 模式 对 数据 做 不 同 的 初始 化 操作 
下 面 分 步骤 介绍 run 方法 的 实现 。 


e (1) 标准 化 相似 度 矩 阵 A 到 矩阵 W 


def normalize(similarities: RDD[(Long, Long, Double)]): Graph[Do 
uble, Double] = ( 
// 获 得 所 有 的 边 
val edges = similarities.flatMap { case (i, j, s) => 
// 相 似 度 值 必 须 非 负 
H 5 9.90) 4 
throw new SparkException("Similarity must be nonnegative 
but found s($i, $j) = $s.") 
} 
if (i != 9) 
Seq(Edge(i, j, s), Edge(j, i, s)) 
) else { 
None 


} 
// 根 据 edges 信 息 构 造 图 ， 顶 点 的 特征 值 默 认为 0 
val gA = Graph.fromEdges(edges, 0.0) 
// 计 算 从 顶点 的 出 发 的 边 的 相似 度 之 和 ， 在 这 里 称 为 度 
val vD = gA.aggregateMessages[Double]( 
sendMsg = ctx => { 
ctx.sendToSrc(ctx.attr) 
ty 
mergeMsg = _ + , 
TripletFields.EdgeOnly) 
// 计 算得 到 W , W-A/D 
GraphImpl.fromExistingRDDs(vD, gA.edges) 
.mapTriplets( 
//gAi/vDi 
// 使 用 边 的 权重 除 以 起 始点 的 度 
e => e.attr / math.max(e.srcAttr, MLUtils.EPSILON), 
TripletFields.Src) 


上 面 的 代码 首先 通过 边 集 合 构造 图 ga ,然后 使 用 aggregateMessages 计算 
每 个 顶点 的 度 ( 即 所 有 从 该 顶点 出 发 的 边 的 相似 度 之 和 ) ， 构 造 出 VertexRDD ° 
最 后 使 用 现 有 的 VertexRDD 和 EdgeRDD ， 相继 通 
过 fromExistingRDDs 和 mapTriplets 方法 计算 得 到 最 终 的 图 W e 


在 mapTriplets 方法 中 ， 对 每 一 个 EdgeTriplet ， 使 用 相似 度 除 以 出 发 顶点 的 
度 (为 什么 相 除 ? at RFE YEE A EBA  SW-DACT)ASSEST VM UC 
素 相 除 得 到 ) 。 

下 面 举 个 例子 来 说 明 这 个 步 又。 假设 有 v1, v2, v3,v4 四 个 点 ， 它 们 之 间 的 关 
系 如 下 图 所 示 ， 并 且 假 设 点 与 点 之 间 的 相似 度 均 设 为 1。 








V1 
| V2 | T v3 
-T — 


通过 该 图 ， 我 们 可 以 得 到 相似 度 和 矩阵 A BFE D ， 他 们 分 别 如 下 所 示 。 


0111 3 606 
加 要 和 5 lo300 
Te 
1100 0002 


通过 mapTriplets 的 计算 ， 我 们 可 以 得 到 从 点 vi 到 v2,v3,v4 的 边 的 权重 
分 别 为 1/3,1/3,1/3 ;从 点 v2 到 v1,Vv3,Vv4 的 权重 分 别 为 1/3,1/3,1/3 ;从 
A V3 到 v1,v2 的 权重 分 别 为 1/2,1/2 ;从 点 v4 到 vi,v2 的 权重 分 别 
为 1/2,1/2 ° 将 这 个 图 转换 为 矩阵 的 形式 ， 可 以 得 到 如 下 和 天 阵 W 。 


LA dy 
433) B 0 0 
1 1 1 1 @ Hh Y 1 i 
E E )d id 
- = — n-i 
W-]i 1 s T 35 E. ned 
2200| jo 0 2 131 D D 
110 0} joo, 2 
23 2 


通过 代码 计算 的 结果 和 通过 答 阵 运算 得 到 的 结果 一 致 。 因 此 该 代码 实现 了 
$W-D^-1)A$ ° 


。 (2) 初始 化 $v^{0}$ 
根据 选择 的 初始 化 模式 的 不 同 ， 我 们 可 以 使 用 不 同 的 方法 初始 化 $vM0}$ 。 一 
种 方式 是 随机 初始 化 ， 一 种 方式 是 度 ( degree ) 初始 化 ， 下 面 分 别 来 介绍 这 两 种 
。 随机 初始 化 


def randomInit(g: Graph[Double, Double]): Graph[Double, Double] 
=f 
// 给 每 个 顶点 指定 一 个 随机 数 
val r = g.vertices.mapPartitionswithIndex( 
(part, iter) => { 
val random = new XORShiftRandom(part) 
iter.map { case (id, _) => 
(id, random.nextGaussian()) 
} 
}, preservesPartitioning = true).cache() 
// 所 有 顶点 的 随机 值 的 绝对 值 之 和 
val sum = r.values.map(math.abs).sum() 
// 取 平均 值 
val vO = r.mapValues(x => x / sum) 
GraphImpl.fromExistingRDDs(VertexRDD(vO), g.edges) 


e 度 初 始 化 


def initDegreeVector(g: Graph[Double, Double]): Graph[Double, D 
ouble] = { 

// 所 有 顶点 的 度 之 和 
val sum = g.vertices.values.sum() 
// 取 度 的 平均 值 
val vO = g.vertices.mapValues( / sum) 
GraphImpl.fromExistingRDDs(VertexRDD(vO), g.edges) 


通过 初始 化 之 后 ， 我 们 获得 了 向 量 $v^{0}$ 。 它 包含 所 有 的 顶点 ， 但 是 顶点 特 
征 值 发 生 了 改变 。 随 机 初始 化 后 ， op as 度 初始 化 后 ， "MA 度 的 平均 
值 。 


在 这 度 初 始 化 的 向 量 我 们 称 为 " 度 向 量 "。 度 向 量 会 给 图 中 度 大 的 节点 分 配 
更 多 ecu ， d£ LAE T YA 8 EX Fo ik 83 Ap > Win S qe Ap She ok o TF 2m 
情况 请 参考 文献 【1】。 


e (3) 快速 迭代 求 最 终 的 V 


for (iter <- © until maxIterations if math.abs(diffDelta) > tol) 
{ 
val msgPrefix = s"Iteration $iter" 
// itE€w*vt 
val v = curG.aggregateMessages [Doub1le]( 


//1n4: F kK I— E LA oe ate 
7 / 4TH AVA /3 与 目 标 AN BS J FE AN 


cre = ctx => ctx.sendToSrc(ctx.attr * ctx.dstAttr), 
mergeMsg = WP uj 
TripletFields. Dst). Secs) 

// itE€||Wvt| | 1， 即 第 三 草 公式 中 的 C 

val norm = VE 

val v1 = v.mapValues(x => x / norm) 


// 


计算 vV_ t+1 和 V 七 的 不 同 

val delta = curG.joinVertices(v1) { case (_, x, y) => 
math.abs(x - y) 

}.vertices.values.sum() 

diffDelta = math.abs(delta - prevDelta) 

// 更 新 V 

curG = GraphImpl.fromExistingRDDs(VertexRDD(vi1), g.edges) 

prevDelta = delta 


在 上 述 代码 中 ， 我 们 通过 aggregateMessages 方法 计算 $WvAft$ 。 我 们 仍然 
以 第 (1) 步 的 举例 来 说 明 这 个 方法 。 假 设 我 们 以 度 来 初始 化 $v^{0}$ ， 在 第 一 次 
迭代 中 ， 我 们 可 以 得 到 v1 (注意 这 里 的 vi 是 上 面 举 例 的 顶点 ) 的 特征 值 
为 (1/3)*(3/10)+(1/3) *(1/5)+(1/3)*(1/5)=7/30 > v2 的 特征 值 
A 7/30 > v3 的 特征 值 为 3/10 , v4 的 特征 值 为 3/19 。 即 满足 下 面 的 公式 。 


7 -LE 
30 3 3 mw 
7 ta 1 13 
1: [ao] |3 3 31110] 0 
um m ne = Wv 
10] |2 2 0 olls 
3 110 oli 
104 !2 2 5 


e (4) 使 用 k-means 算法 对 V 进 行 聚 类 


def kMeans(v: VertexRDD[Double], k: Int): VertexRDD[Int] = { 

val points = v.mapValues(x => Vectors.dense(x) ).cache( ) 
val model = new KMeans() 

.SetK(k) 

.setRuns(5) 

.setSeed( OL) 

.run(points.values) 
points.mapValues(p -» model.predict(p)).cache() 


如 果 对 graphX 不 太 了 解 ， 可 以 阅读 spark graph 使 用 和 源码 解析 


4 参考 文献 


[1] Frank Lin,William W. Cohen.Power Iteration Clustering 


[2] ii Clustering (4): Spectral Clustering 


隐 式 狄 利克 雷 分 布 


LDA 是 一 种 概率 主题 模型 
> 简称 LDA ) ° 
档 集 中 每 篇 文档 的 主题 以 概率 分 布 的 形式 给 
出 它们 的 主题 (分 布 ) 
模型 ， 即 一 篇 文档 是 由 一 组 词 构成 ， 词 与 词 之 间 没 有 先后 顺 


Allocation 


一 种 典型 的 词 袋 


系 。 一 篇 文档 可 以 包含 


一 个 简单 的 例子 


: 隐 式 犹 利克 雷 分 布 ( Latent Dirichlet 
LDA 是 2003 年 提出 的 一 种 主题 模型 ， 它 可 以 将 文 


o 通过 分 析 一 些 文档 ， 我 们 可 以 抽取 
|! 根据 主题 (A) 进行 主题 聚 类 或 文本 分 类 。 同 时 ， 它 是 


HB X 


多 个 主题 ， 文 档 中 每 一 个 词 都 由 其 中 的 一 个 主题 生成 。 


， 比 如 假设 事先 给 


定 了 这 几 个 主题 : 


Arts ` Budgets ^ 


Children ` Education ， 然 后 通过 学 习 的 方式 ， 获 取 每 个 主题 Topic 对 应 的 词 


语 ， 如 下 图 所 示 : 
“Arts” 


NEW 
FILM 
SHOW 
MUSIC 
MOVIE 
PLAY 
MUSICAL 
BEST 
ACTOR 
FIRST 
YORK 
OPERA 
THEATER 
ACTRESS 
LOVE 





然后 以 一 定 的 概率 选取 上 述 某 
单词 ， 不 断 的 重复 这 两 步 ， 


表示 不 同 主题 ) 。 


“Budgets” 


MILLION 
TAX 
PROGRAM 
BUDGET 
BILLION 
FEDERAL 
YEAR 
SPENDING 
NEW 

STATE 
PLAN 
MONEY 
PROGRAMS 
GOVERNMENT 
CONGRESS 


“Children” 


CHILDREN 
WOMEN 
PEOPLE 
CHILD 
YEARS 
FAMILIES 
WORK 
PARENTS 
SAYS 
FAMILY 
WELFARE 
MEN 
PERCENT 
CARE 
LIFE 


“Education” 


SCHOOL 
STUDENTS 
SCHOOLS 
EDUCATION 
TEACHERS 
HIGH 
PUBLIC 
TEACHER 
BENNETT 
MANIGAT 
NAMPHY 
STATE 
PRESIDENT 
ELEMENTARY 
HAITI 


个 主题 ， 再 以 一 定 的 概率 选取 那个 主题 下 的 某 个 
最 终生 成 如 下 图 所 示 的 一 篇 文章 (不 同 顾 色 的 词语 分 别 


The William Randolph Hearst Foundation will give $1.25 million to Lincoln Center, Metropoli- 
tan Opera Co., New York Philharmonic and Juilliard School. “Our board felt that we had a 
real opportunity to make a mark on the future of the performing arts with these grants an act 
every bit as important as our traditional areas of support in health, medical research, education 
and the social services,” Hearst Foundation President Randolph A. Hearst said Monday in 
announcing the grants, Lincoln Center’s share will be $200,000 for its new building, which 
will house young artists and provide new public facilities. The Metropolitan Opera Co. and 
New York Philharmonic will receive $400,000 each. The Juilliard School, where music and 
the performing arts are taught, will get $250,000. The Hearst Foundation, a leading supporter 
of the Lincoln Center Consolidated Corporate Fund, will make its usual annual $100,000 
donation, too. 








我 们 看 到 一 篇 文章 后 ， 往 往 会 推测 这 篇 文章 是 如 何 生 成 的 ， 我 们 通常 认为 作者 
会 先 确定 几 个 主题 ， 然 后 围绕 这 几 个 主题 遗 词 造 名 写成 全 文 。 LDA 要 干 的 事情 就 
是 根据 给 定 的 文档 ， 判 断 它 的 主题 分 布 。 在 LDA 模型 中 ， 生 成 文档 的 过 程 有 如 下 
JL s 


e. 从 狄 利克 雷 分 布 $\alpha$ 中 生成 文档 i 的 主题 分 布 $vtheta _{i}$ ; 

。 从 主题 的 多 项 式 分 布 $thetaf28 中 取样 生成 文档 /第 /个 词 的 主题 9Z{ij}$ ; 

e. 从 狄 利克 雷 分 布 $\eta$ 中 取样 生成 主题 $Z1j118 对 应 的 词语 分 布 gbetafij)$ ; 
e. 从 词语 的 多 项 式 分 布 $\betatjj18 中 采样 最 终生 成 词语 8Wij)$ . 


LDA 的 图 模型 结构 如 下 图 所 示 : 



































LDA 会 涉及 很 多 数学 知识 ， 后 面 的 章节 我 会 首先 介绍 LDA 涉及 的 数学 知识 ， 
然后 在 这 些 数学 知识 的 基础 上 详细 讲解 LDA 的 原理 。 


1 数学 预备 


1.1 Gamma $ 2 
在 高 等 数学 中 ， 有 一 个 长 相 奇 特 的 Gamma 函数 


yix) J te dt 
0 


通过 分 部 积分 ， 可 以 推导 gamma BAA to TR yale A 


了 化 


通过 该 递归 性 质 ， 我 们 可 以 很 容易 证 明 ， gamma 有 函数 可 以 被 当成 阶乘 在 实数 
集 上 的 延 拓 ， 具 有 如 下 性 质 


l'(n) = (n — 1)! 


1.2 Digamma 4s Z 


Ae TF RARA Digamma 函数 ， 它 是 Gamma 函数 对 数 的 一 阶 导 数 


. dlog T(x) 


V(x) em 


这 是 一 个 很 重要 的 函数 ， 在 涉及 Dirichlet 分 布 相关 的 参数 的 极 大 似 然 估计 
时 ， 往 往 需要 用 到 这 个 函数 。 Digamma 骂 数 具有 如 下 一 个 漂亮 的 性 质 


V(z+1)= v(e) - 


1.3 二 项 分 布 (Binomial distribution) 


二 项 分 布 是 由 伯 努 利 分 布 推出 的 。 伯 努 利 分 布 ， 又 称 两 点 分 布 或 0-1 分 布 ， 


日 


重复 n 次 的 伯 努 利 试验 。 简 言 之 ， 只 做 一 次 实验 ， 是 伯 努 利 分 布 ， 重 复 做 了 n 次 ， 
是 二 项 分 布 


是 一 个 离散 型 的 随机 分 布 ， 其 中 的 随机 变量 只 有 两 类 取 值 ， 即 0 或 者 1。 二 项 分 布 是 
o 二 项 分 布 的 概率 密度 函数 为 : 


P(K = k) = C(n,k)p*(1— p)” 
对 于 k=1.2，...n， 其 中 c(n,k) 是 二 项 式 系数 (这 分 布 的 名 称 的 由 
A) 


n! 
haa” (n—k)! 


(jaca 分 布 扩展 到 多 维 的 情况 。 多 项 分 布 是 指 单 次 试验 中 的 随机 变量 
0 bor 4 离散 值 可 能 
N we ep 


GPK 
次 实验 结果 服从 K6 的 多 项 分 布 。 其 中 : 


k 
> m= Lp, 21 


o Fade 4 986 SD 


多 项 分 布 的 概率 密度 函数 为 : 


n! " 
Se = T k 
CE 本 


E E -Pk 
1.5 Beta 分 布 
1.5.1 Beta 分 布 


首先 看 下 面 的 问题 1 (问题 1 到 问题 4 都 取 自 于 文献 【1】 


问题 1 : 


1: Xi1, X2,.…- Xn Uniform(0, 1), 
2: 把 这 n NOLL HEHE REII HEX (o. Xo, X, 
3: PIX ik) 的 分 布 是 什么 


为 解决 这 个 问题 ， 可 以 尝试 计算 $x_{(k)}$ 落 在 区 间 [x,x+delta x] 的 概率 。 
首先 ， 把 [0,1] 区 间 分 成 三 段 [0,x) , [x,x*delta x] ， (xtdelta x,1] ° 
然后 考虑 下 简单 的 情形 : 即 假设 n 个 数 中 只 有 1 个 落 在 了 区 间 [x,x+delta x] A? 
由 于 这 个 区 间 内 的 数 Co * 是 第 k 大 的 ， 所 以 [0,x) 中 应 该 有 k-1 个 
数 ， (x+delta x,1] 这 个 区 间 中 应 该 有 n-k 个 数 。 如 下 图 所 示 : 


x" Ax (1- 3 
0 | | ] 
k-1values X Xt Ax a values 
dodi Pa Xuan, 


上 述 问题 可 以 转换 为 下 述 事件 E 
E = (Xi € |z, z + Az], 
Xi€l0,z) (i22,---,k), 
X; €(e+Az,1] G=k+1,--- ,n)} 


对 于 上 述 事件 E ， 有 : 


= II P(X 
$—1 


= z"! (1 — z — Ax)" "Ar 
= g*-1(1 — zy*^*Az + o(Az) 


其 中 ，o(delta x) 表示 delta x 的 高 阶 无 穷 小 。 显 然 ， 由 于 不 同 的 排列 组 
合 ， 即 n 个 数 中 有 一 个 落 在 [x,xtdelta x] 区 间 的 有 n 种 取 法 ， 余 下 n-1 个 数 中 有 Kk 
-1 个 落 在 [0,x) 的 有 C(n-1,k-1) 种 组 合 。 所 以 和 事件 E 等 价 的 事件 一 共 
A nc(n-1,k-1) *° 


文献 【1】 中 证 明 ， 只 要 落 在 [x,x«delta x] 内 的 数字 超过 一 个 ， 则 对 应 的 
事件 的 概率 就 是 o(delta x) 。 所 以 $x _{(k) 和 的 概率 密度 函数 为 : 








Aa e, Ar 
n— 1 = TE 
-n(n j^ i eu 
n! " "— 
= E Da Hi l(1—2)"7* ze [0,1] 


利用 Gamma 函数 ， 我 们 可 以 将 f(x) 表示 成 如 下 形式 : 


T'(n+1) 
(kK)T(n — k 4- 1) 





z^ = 2Z)? 一 


f(z) = = 


在 上 式 中 ， 我 们 用 alpha=k ， beta=n-k+1 替换 ， 可 以 得 到 beta 分 布 的 概 


dd I'(a +P) oi a l 
fT wgng^ 9-79 


1.5.2 Hi ALD AB 


4F 4 AJ As 9e, 2 Ne 05 SRR eH o HM F OLR MEAAAR? 
或 互相 约束 。 在 贝 叶 斯 概率 理论 中 ， 如 果 后 验 概 率 P(z|x) 和 先 验 概 率 p(z) 满 
足 同 样 的 分 布 ， 那 么 ， 先 验 分 布 和 后 验 分 布 被 叫做 共 力 分 布 ， 同 时 ， 先 验 分 布 叫做 
WIR BRAY LAB D A o 


1.5.3 Beta-Binomial #42 


我 们 在 问题 1 的 基础 上 增加 一 些 观测 数据 ， 变 成 问题 2 : 
1 Xi, Xa ,XnUniform(0,1)， 排 序 后 对 应 的 顺序 统计 
5 Xa), X) X(n) 我 们 要 猜测 p = Xw): 
: YuYoS Ya 9 Uniform(0, 1), 于 中 有 mi 个 比 p 小 ，mz 个 比 p 大 ; 
: BIP(p|Y1, Yo, --- ,Ym) 的 分 布 是 什么 。 


wo N 


第 2 步 的 条 件 可 以 用 另外 一 句 话 来 表述 ， 即 “ Yi PA m1 个 比 x(k ) 
小 ，m2 个 比 X(k) 大 ”， 所 以 x(k) 是 
$X((1),Xt2))....X((n); VA) Y(2))...., Y(m))S P kem1 X 89 žk ° 


根据 1.5.1 的 介绍 ， 我 们 知道 事件 p 服 从 beta 分 布 , 它 的 概率 密度 函数 为 : 


Beta(p|k +m,,n—k+1+mzg), 


按照 贝 叶 斯 推理 的 逻辑 ， 把 以 上 过 程 整理 如 下 : 


e 1、p 是 我 们 要 猜测 的 参数 ， 我 们 推导 出 p 的 分 布 为 f(p)=Beta(p|k,n- 
k+1) , 称 为 p HAIDA 


e 2、 根 据 Yi 中 有 mi 个 比 p 小， 有 m 个 比 p 大 ，Yi 相当 是 做 了 m 次 
伯 努 利 实验 ， 所 以 mi 服从 二 项 分 布 B(m,p) 


e 3、 在 给 定 了 来 自 数据 提供 (m,m) 知识 后 ，p 的 后 验 分 布 变 
为 f(p|m1,m2)=Beta(p|k+ml,n-k+1+m2) 


贝 叶 斯 估计 的 基本 过 程 是 : 

先 验 分 布 + 数据 的 知识 = 后 验 分 布 
以 上 贝 叶 斯 分 析 过 程 的 简单 直观 的 表示 就 是 : 

Beta(p|k,n-k+1) + BinomCount(m1,m2) = Beta(p|k+m1,n-k+1+m2) 
更 一 般 的 ， 对 于 非 负 实 数 alpha 和 beta， 我 们 有 如 下 关系 


Beta(p|alpha,beta) + BinomCount(m1,m2) = 
Beta(p|alpha+m1,beta+m2) 


针对 于 这 种 观测 到 的 数据 符合 二 项 分 布 ， 参 数 的 先 验 分 布 和 后 验 分 布 都 
是 Beta 分 布 的 情况 ， 就 是 Beta-Binomial #46 » EZ * Beta 分 布 是 二 项 式 
分 布 的 共 斩 先 验 概 率 分 布 。 二 项 分 布 和 和 Beta 分布 是 共 力 分 布 意味 着 ， 如 果 我 们 为 二 
项 分 布 的 参数 p 选 取 的 先 验 分 布 是 Beta 分 布 ， 那 么 以 p 为 参数 的 二 项 分 布 用 贝 叶 斯 
估计 得 到 的 后 验 分 布 仍然 服从 Beta 分 布 。 


1.6 Dirichlet 分 布 


1.6.1 Dirichlet 分 布 


Dirichlet 分 布 ， 是 beta 分 布 在 高 维度 上 的 推广 。 Dirichlet 分 布 的 的 
密度 函数 形式 跟 beta 分 布 的 密度 函数 类 似 : 


k 
1 -1 
TAN ee oe ae ee =——| [e 
f= 


其 中 


dom Tr(a) 


" (a) E 工 gr. a 


Xi —1 


至 此 ， 我 们 可 以 看 到 二 项 分 布 和 多 项 分 布 很 相似 ， Beta 分 布 
和 Dirichlet 分 布 很 相似 。 并 且 Beta 分 布 是 二 项 式 分 布 的 共 力 先 验 概 计 分 布 。 
那么 Dirichlet 分 布 呢 ? Dirichlet 分 布 是 多 项 式 分 布 的 共 力 先 验 概 率 分 布 。 
下 文 来 论证 这 点 。 


1.6.2 Dirichlet-Multinomial +42 
在 1.5.3 章 问题 2 的 基础 上 ， 我 们 更 进一步 引入 问题 3 : 


1: X1, X2, Xa) Uniform(0, 1), 
2: 排序 后 对 应 的 顺序 统计 量 X0)， X --- Xn), 
3: 问 (X y, X (ey tho) HKG AAI ETA 


类 似 于 问题 1 的 推导 ， 我 们 可 以 容易 推导 联合 分 布 。 为 了 简化 计算 ， 我 们 
FR x3 满足 x1+x2+x3=1 , xi fe x2 是 变量 。 如 下 图 所 示 。 


x1 Ax x2 Ax x3 


0 k1-1 values k2-1 values n-k2-kivalues 1 


概率 计算 如 下 


P( Xe € (z1,21 + Az), X, 4k,) € (22,22 十 Az)) 
n-—2 ki-lyka-l an ki—k 2 

= =f, il EC 1—k2(A 
ro- 人 (二 和 (Az) 
n! 


= ay xy (A)? 
u e Ce ee e 3 — W4 


于 是 我 们 得 到 联合 分 布 为 : 


E whe 1 4 ki1— ko 


bd ^ dd -1 aka-an- kicks 
T(k;)F(ko)T'(n — ky — ka 4-1) ! 


观察 上 述 式 子 的 最 终结 果 ， 可 以 看 出 上 面 这 个 分 布 其 实 就 是 3 维 形式 
的 Dirichlet 分 布 。 令 alphai-ki,alpha2-k2,alpha3-n-ki-k241 ， 分 布 密度 
HATA: 


Fa a te) woh ee ai 


Pena a 7» 75 





为 了 论证 Dirichlet PHLSRADHVHHRALMED A bik] BZ 
的 基础 上 再 进一步 ， 提 出 问题 4。 


1: X1,Xo,---,X_Uniform(0,1), dE FF Ja X MM d MD FR Ud 
f XQ Xy Xin) 


2: pi = X), P2 = Xq ek) P3 三 1 一 Di 一 pz( 加 上 ps 是 为 了 数学 表达 简洁 对 
FK), dim (pi, p2, pa): 


* Yi Yo - : Y, Uni form(0, 1), Y; F % 8[0, pi), [P1; p2), [p2, 1] 三 个 区 间 的 
个 数 分 别 为 rzl, ma , ma, m = m + mM + m3; 
4: BRA f P(p|Yi Yo,--- Ym) 的 分 布 是 什么 
为 了 方便 计算 ， 我 们 记 


= (mı, m2, m3), k = (ki, ko,n — kı — ka + 1) 


根据 问题 中 的 信息 ， 我 们 可 以 推理 得 到 p1, p2 Æ X;Y 这 mn 个 数 中 分 别 成 
为 了 第 ki+m1,kit+k2+mi+m2 大 的 数 。 后 验 分 布 p 应 该 为 


P(plY,,Y>,.--. Ym) = Dir(p|k, + m,,k, + m,,n—k,—k,+1+m,) = P(p|k + m) 


同样 的 ， 按 照 贝 叶 斯 推理 的 逻辑 ， 可 将 上 述 过 程 整理 如 下 : 
e 1 我 们 要 猜测 参数 P=(p1,p2,p3) ， 其 先 验 分 布 为 Dir(p|k) ; 


e 2 数据 vi 落 到 三 个 区 间 [0,p1) , [p1,p2] , (p2,1] 的 个 数 分 别 
是 mi,m2,m3 ,所 以 m=(m1,m2,m3) 服从 多 项 分 布 Mult(m|p) ; 


e 3 在 给 定 了 来 自 数 据 提 供 的 知识 m ^ p 的 后 验 分 布 变 为 Dir(P|k+m) 
上 述 贝 叶 斯 分 析 过 程 的 直观 表述 为 : 
Dir(p|k) + Multcount(m) = Dir(p|k+m) 


针对 于 这 种 观测 到 的 数据 符合 多 项 分 布 ， 参 数 的 先 验 分 布 和 后 验 分 布 都 
是 Dirichlet 分 布 的 情况 ， 就 是 Dirichlet-Multinomial #42 » RB*KA > de 
果 我 们 为 多 项 分 布 的 参数 p 选 取 的 先 验 分 布 是 Dirichlet 分 布 ， 那 么 以 p 为 参数 的 
多 项 分 布 用 贝 叶 斯 估计 得 到 的 后 验 分 布 仍然 服从 Dirichlet 分 布 。 


1.7 Beta 和 Dirichlet 分 布 的 一 个 性 质 


如 果 p-Beta(t|alpha,beta) > MA 


E(p) = fe Beta(t|a, 8)dt 
7 1 . l'(o 4- 8) ,i _ aid 
=f t Tar) (1— 1t)" dt 


 Fie8 Y'a. sca 
-ms | t^(1 — t) dt 








上 式 右 边 的 积分 对 应 到 概率 分 布 Beta(t|alpha+1, beta) ， 对 于 这 个 分 布 ， 
我 们 有 





*T(a+B6+1),, TE PNE 
人 


把 上 式 带 人 Elp) 的 计算 式 ， 可 以 得 到 : 


T(ia+8) Patre) 
T(a)F(6) T(a+8+1) 
. Tears) Te 
~ T(at+84+1) Ta) 
a+ p 


E(p) = 








这 说 明 ， 对 于 Beta 分 布 的 随机 变量 ， 其 期 望 可 以 用 上 式 来 估 
ite Dirichlet 分 布 也 有 类 似 的 结论 。 对 于 p=Dir(t|alpha) ， 有 


Q1 a2 QK ) 


3e oi an ai i Ea Qi 








E(p) = ( 





这 个 结论 在 后 文 的 推导 中 会 用 到 。 


1.8 总 结 


G 


LDA 涉及 的 数学 知识 较 多 ， 需 要 认真 体会 ， 以 上 大 部 分 的 知识 来 源 于 文献 
【1,2,3】, 如 有 不 清楚 的 地 方 ， 参 见 这 些 文献 以 了 解 更 多 。 


2 主题 模型 LDA 


在 介绍 LDA 之 前 ， 我 们 先 介 绍 几 个 基础 模型 : Unigram model ^ mixture 
of unigrams model ^ pLSA model 。 为 了 方便 描述 ， 首先 定 义 一 些 变量 : 


e 1 w 表示 词 ，V 表示 所 有 词 的 个 数 

e2 z 表示 主题 ，k 表示 主题 的 个 数 

3 $D=(W{1}, W(2).....W. (MS m EFHÈ > M 表示 语料库 中 的 文档 数 。 
4 $W-(w(1),w(2)....w (N)$AURXUE > N 表示 文档 中 词 的 个 数 。 


2.1 一 元 模型 (Unigram model) 


s} F 3US$SW-(wf1),w(2),...w(NJ)$ , Fl Sp(w(n))$ z $w. (n)$ 94 Age c E ob 
成 文档 W 的 概率 为 : 


P(W) = | be 


其 图 模型 为 (图 中 被 涂 色 的 w 表示 可 观测 变量 ，N 表示 一 篇 文档 中 总 
JEN 个 单词 ，M 表示 M 篇 文档 ) 





2.2 混合 一 元 模型 (Mixture of unigrams model) 
该 模型 的 生成 过 程 是 : 给 菜 个 文档 先 选 择 一 个 主题 Zz ， 再 根据 该 主题 生成 广 
档 ， 该 文档 中 的 所 有 词 都 来 自 一 个 主题 。 生 成 文档 的 概率 为 : 
N 


p(w) = X pC) TI pw |2). 


n=l 


其 图 模型 为 (图 中 被 涂 色 的 w 表示 可 观测 变量 ， 未 被 涂 色 的 z 表示 未 知 的 隐 
变量 ，N 表示 一 篇 文档 中 总 共 N 个 单词 ，M 表示 M 篇 文档 ) 


E 


























2.3 pLSA BE! 


在 混合 一 元 模型 中 ， 假 定 一 篇 文档 只 由 一 个 主题 生成 ， 可 实际 中 ， 一 篇 文章 往 
往 有 多 个 主题 ， 只 是 这 多 个 主题 各 自在 文档 中 出 现 的 概率 大 小 不 一 样 。 
在 pLSA 中 ， 假 设 文档 由 多 个 主题 生成 。 下 面 通过 一 个 投 色 子 的 游戏 ( 取 自 文献 
【2】 的 例子 ) 说 明 pLSA 生成 文档 的 过 程 。 


首先 ， 假 定 你 一 共有 K 个 可 选 的 主题 ， 有 V 个 可 选 的 词 。 假 设 你 每 写 一 篇 文 
档 会 制作 一 颗 K 面 的 “文档 -主题 "股子 〈 扔 此 乳 子 能 得 到 K 个 主题 中 的 任意 一 
A^) ， 和 K 个 V 面 的 "主题 - 词 项 "股子 〈 每 个 明子 对 应 一 个 主题 ， K PRE HE 
之 前 的 kK 个 主题 ， 且 鹏 子 的 每 一 面 对 应 要 选择 的 词 项 ，V 个 面 对 应 着 V 个 可 选 
的 词 ) 。 比如 可 令 K=3 ， 即 制作 1 个 人 金 有 3 个 主题 的 “文档 -主题 "股子 ， 这 3 个 主题 
可 以 是 : KA. AR Xd REFS V = 3 ， 制 作 3 个 有 着 3 面 的 “主题 - 词 项 " 盟 
子 ， 其 中 ， 教 育 主题 最 子 的 3 个 面 上 的 词 可 以 是 : 大 学 、 老 师 、 课 程 ， 经 济 主题 鹏 
子 的 3 个 面 上 的 词 可 以 是 : 市 场 、 企 业 、 人 金融， 交通 主题 鹏 子 的 3 个 面 上 的 词 可 以 
是 : 高 铁 、 汽 车 、 飞 机 。 


其 次 ， 每 写 一 个 词 ， 先 扔 该 "文档 -主题 " 虎 子 选择 主题 ， 得 到 主题 的 结果 后 ， 使 
用 和 主题 结果 对 应 的 那里 "主题 - 记 项 "股子 ， 扔 该 骨 子 选择 要 写 的 词 。 先 扔 "文档 - 主 
题 "的 珊 子 ， 假 设 以 一 定 的 概率 得 到 的 主题 是 : 教育 所 以 下 一 步 便 是 扔 教育 主题 和 
子 ， 以 一 定 的 概率 得 到 教育 主题 筛子 对 应 的 某 个 词 大 学 。 


e 上 面 这 个 投 股 子 产 生词 的 过 程 简 化 一 下 便 是 :“ 先 以 一 定 的 概率 选取 主题 ， 再 以 
一 定 的 概率 选取 词 ”。 事 实 上 ， 一 开始 可 供 选择 的 主题 有 3 个 : 教育 、 经 济 、 交 
通 ， 那 为 何 偏偏 选取 教育 这 个 主题 呢 ? 其 实 是 随机 选取 的 ， 只 是 这 个 随机 遵循 
一 定 的 概率 分 布 。 比 如 可 能 选取 教育 主题 的 概率 是 0.5， 选 取经 济 主 题 的 概率 是 
0.3， 选 取 交 通 主题 的 概率 是 0.2， 那 么 这 3 个 主题 的 概率 分 布 便 是 {教育 : 

0.5» 43: :0.3» X38:0.2) ， 我 们 把 各 个 主题 z 在 文档 d 中 出 现 的 概率 分 
布 称 之 为 主题 分 布 ， 且 是 一 个 多 项 分 布 。 


e 同样 的 ， 从 主题 分 布 中 随机 抽取 出 教育 主题 后 ， 依 然 面 对 着 3 个 词 : 大 学 、 老 
师 、 课 程 ， 这 3 个 词 都 可 能 被 选中 ， 但 它们 被 选中 的 概率 也 是 不 一 样 的 。 比 如 
大 学 这 个 词 被 选中 的 概率 是 0.5， 老 师 这 个 词 被 选中 的 概率 是 0.3， 课 程 被 选中 
的 概率 是 0.2， 那 么 这 3 个 词 的 概率 分 布 便 是 《大 学 : 0.5， 老师 : 9.3， 课 程 : 
0.2) ， 我 们 把 各 个 词语 W 在 主题 Z 下 出 现 的 概率 分 布 称 之 为 词 分 布 ， 这 个 词 分 
布 也 是 一 个 多 项 分 布 。 


e 所 以 ， 选 主题 和 选 词 都 是 两 个 随机 的 过 程 ， 先 从 主题 分 布 {教育 :0.5， BH: 
0.3， 交 通 :0.2) 中 抽取 出 主题 : 教育 ， 然 后 从 该 主题 对 应 的 词 分 布 { 大 学 : 
0.5， 老 师 : 6.3， 课 程 :9.2} 中 抽取 出 词 : 大 学 。 

最 后 ， 你 不 停 的 重复 扔 “文档 -主题 "股子 和 "主题 - 词 项 股子， 重复 N 次 ( 产 
生 N AR) ， 完 成 一 篇 文档 ， 重 复 这 产生 一 篇 文档 的 方法 M 次 ， 则 完成 M 篇 文 
档 。 

上 述 过 程 抽象 出 来 即 是 pLSA 的 文档 生成 模型 。 在 这 个 过 程 中 ， 我 们 并 未 关注 
词 和 词 之 间 的 出 现 顺序 ， 所 以 pLSA 是 一 种 词 袋 模型 。 定 义 如 下 变量 : 

e $(z(1,z(2),...z {KSA TRAER ; 

e $P(d_ 们 )$ 表 示 海 量 文档 中 某 篇 文档 被 选中 的 概 举 ; 

e $P(w 人 ofi)$ 表 示 词 $w 信 8 在 文档 8afij$ 中 出 现 的 概率 ; 针对 海量 文档 ， 对 所 有 
文档 进行 分 词 后 ， 得 到 一 个 词汇 列表 ， 这 样 每 篇 文档 就 是 一 个 词语 的 集合 。 对 
于 每 个 词语 ， 用 它 在 文档 中 出 现 的 次 数 除 以 文档 中 词语 总 的 数目 便 是 它 在 文档 
中 出 现 的 概率 ; 


$P(zfglafi)$ 表 示 主 题 $zfk18 在 文档 gafij$ 中 出 现 的 概率 ; 


$P(wlj)lz(k])$ È 7 10$w(] 94e 3.38 $z(k)$ P d st ag pt o 5 3 8 X RR bg 
词 其 条 件 概 率 越 大 。 


我 们 可 以 按照 如 下 的 步骤 得 到 “文档 - 词 项 * 的 生成 模型 : 


1 按照 $P(d{))3 选 择 一 篇 文档 8d{i}$ ; 
e 2 选 定 文档 $d 从 $3 之 后 ， 从 主题 分 布 中 按照 概率 $P(z{k}|d_ 们 )$ 选 择 主题 ; 
e 3 选 定 主题 后 ， 从 词 分 布 中 按照 概率 $P(w 仍 |zk})$ 选 择 一 个 词 。 
利用 看 到 的 文档 推断 其 隐藏 的 主题 (分 布 ) 的 过 程 ， 就 是 主题 建 模 的 目的 : 自 
动 地 发 现 文档 集中 的 主题 (TA) 。 文 档 d 和 单词 w 是 可 被 观察 到 的 ， 但 主 
题 Z 却 是 隐藏 的 。 o。 如 下 图 所 示 (图 中 被 涂 色 的 d^w 表示 可 观测 变 变量 d 未 被 涂 色 


的 z 表示 未 知 的 隐 变 量 ， N 表示 一 篇 文档 中 总 共 N 个 单词 ，M 表示 M 篇 文 
档 ) 。 
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LAP > CH od 和 词 w 是 我 们 得 到 的 样本 ， 可 观测 得 到 ， 所 以 对 于 任意 一 篇 
文 覆 ， 其 $P(w 人 df)$ 是 已 知 的 。 根 据 这 个 概率 可 以 训练 得 到 文档 -主题 概率 以 
及 主题 - 词 项 PLA o Bp: 


K 
P(w ldi) = 》 PQw |zx)P(Zeld,) 
k=1 


故 得 到 文档 中 每 个 词 的 生成 概率 为 : 


P(w,, di) = P(d,)P(w a) - v). Pow \21.)P(zuld;) 


$P(dfi}) ST A d 4&4 > Fa SP(z{k}df{i}) $e SP(w(jYz(lg)$ 44e > PVA $\theta= 
(P(z{k}Id 人 0),P(wfj}lz_{k}))$ 就 是 我 们 要 估计 的 参数 ,我 们 要 最 大 化 这 个 参数 。 因 为 访 
待 估计 的 参数 中 含有 隐 变 量 z ， 所 以 我 们 可 以 用 EM 算法 来 估计 这 个 参数 。 


2.4 LDA 模 型 


LDA 的 不 同 之 处 在 于 ， pLSA 的 主题 的 概率 分 布 P(c|d) E A 
分 布 ， O 然 主 题 c 不 确定 ， 但 是 c 符合 的 概率 qao cu ， 比 如 符 
个 多 项 分 布 ， 这 个 多 项 分 布 的 各 参数 是 确定 的 。 但 是 在 LDA 中 ， 这 个 多 Ud 
是 不 确定 的 ， 高 斯 分 布 又 服从 一 个 狄 利克 雷 先 验 分 布 (Dirichlet prior) ° 
BP LDA 就 是 pLSA 的 贝 叶 斯 版 本 , 正 因为 LDA 被 贝 叶 斯 化 了 ， 所 以 才 会 加 的 两 个 


LDA 模型 中 一 篇 文档 生成 的 方式 如 下 所 示 : 


1 按照 $P(d 亿 )8 选 择 一 篇 文档 gafi)$ ; 

e 2 从 狄 利克 雷 分 布 $\alpha$ 中 生成 文档 i 的 主题 分 布 $vtheta_ (i$ ; 

e 3 从 主题 的 多 项 式 分 布 $vthetaf 人 ?8 中 取样 生成 文档 /第 /个 词 的 主题 8Z{i)$ ; 

© 4 从 狄 利克 雷 分 布 y\eta$ 中 取样 生成 主题 $Z1 118 对 应 的 词语 分 布 Wbetafiji$ : 
e 5 从 词语 的 多 项 式 分 布 和 betafi 放 8 中 采样 最 终生 成 词语 $Wi,j}$ 


从 上 面 的 过 程 可 以 看 出 ， LDA 在 pLSA 的 基础 上 ， 为 主题 分 布 和 词 分 布 分 别 
加 了 两 个 Dirichlet 先 验 。 


拿 之 前 讲解 pLSA 的 例子 进行 具体 说 明 。 如 前 所 述 ， 在 pLSA 选 主 题 和 
选 词 都 是 两 个 随机 的 过 程 ， 先 从 主题 分 布 { 教 育 : 9.5， 经 济 : 9.3， 交 通 :0.2} 中 
抽取 出 主题 : 教育 ， 然 后 从 该 主题 对 应 的 词 分 布 {大 学 : 0.5， 老 师 :0.3， 课程 : 
0.2) 中 抽取 出 词 : 大 学 。 在 LDA 中 ， 选 主题 和 选 词 依然 都 是 两 个 随机 的 过 程 。 
但 在 LDA 中 ， 主 题 分 布 和 词 分 布 不 再 唯一 确定 不 变 ， 即 无 法 确切 给 出 。 例 如 主题 
290 es: 3» Xi8:0.2) ， 也 可 能 是 {教育 :0.6， 经 济 : 
0.2， 交 通 :0.2) ， 到 底 是 哪个 我 们 不 能 确定 ， 因 为 它 是 随机 的 可 变化 的 。 但 再 怎 
么 变化 ， ee se ， 主 题 分 布 和 词 分 布 由 Dirichlet 先 验 确 定 。 


举 个 文档 d 产生 主题 z 的 例子 。 


在 pLSA 中 ， 给 定 一 篇 文档 d， 主 题 分 布 是 一 定 的 ， 比 如 ( P(zild), i = 
1,2,3 } 可 能 就 是 (0.4,0.5,0.1) ， 表 示 z1、z2、z3 这 3 个 主题 被 文档 d 选 
中 的 概率 都 是 个 国定 的 值 : P(z1|d) = 0.4`P(z2|d) = 0.5、P(z3|d) = 
0.1 ， 如 下 图 所 示 : 


生成 模型 ， PLSA 


坚强 的 孩子 


依然 前 行 在 路 上 
才 张 开 翅膀 飞 向 自由 
让 雨水 埋 莱 他 的 迷情 





pw|d=> pwlz)p(z1d) 
| Ang p J 





在 LDA 中 ， 主 题 分 布 (各 个 主题 在 文档 中 出 现 的 概率 分 布 ) 和 词 分 布 (各 个 
词语 在 茶 个 主题 下 出 现 的 概率 分 布 ) 是 唯一 确定 的 。 LDA 为 提供 了 两 
个 Dirichlet 先 验 参 数 ， Dirichlet 先 验 为 某 篇 文档 随机 抽取 出 主题 分 布 和 词 
分 布 。 


给 定 一 篇 文档 d ， 现 在 有 多 个 主题 z1、z2、z3 ， 它 们 的 主题 分 布 { 
P(zild), i = 1,2,3 ) 可 能 是 {0.4,0.5,0.1} ， 也 可 能 是 (0.2,0.2,0.6) ， 
即 这 些 主题 被 d 选中 的 概率 都 不 再 是 确定 的 值 ， 可 能 是 P(z1|d) = 0.4、 
P(z2|d) = 0.5»P(z3|d) = 0.1 ， 也 有 可 能 是 P(z1|d) = 0.2`P(z2|d) = 
0.2、P(z3|d) = 0.6 ， 而 主题 分 布 到 底 是 哪个 取 值 集合 我 们 不 确定 ， 但 其 先 验 分 
布 是 dirichlet 分 布 ， 所 以 可 以 从 无 穷 多 个 主题 分 布 中 按照 dirichlet 先 验 随 
机 抽取 出 某 个 主题 分 布 出 来 。 如 下 图 所 示 


LDA (IE NAKAI RGD A) 


IFA HEES 
He! FBR 
| emo SS 









CN] ETE: 
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LDA 在 DESA 的 基础 上 给 两 参数 $P(zf1lQ|d 人 fi))$ 和 $P(w 从 |z{k})$ 加 了 两 个 先 验 
分 布 的 参数 。 这 两 个 分 布 都 是 Dirichlet 分 布 。 下 面 是 LDA 的 图 模型 结构 : 




















3 LDA 参数 估计 
在 spark 中 ， 提 供 了 两 种 方法 来 估计 参数 ， 分 别 是 变 分 EM (MR 
分 别 介 


法 〈 见 文献 【3】【4】) 和 在 线 学 习 算 法 〈 见 文献 【5】) 。 下 面 将 
种 算法 以 及 其 源码 实现 。 


3.4 交 分 EM 算法 


变 分 贝 叶 斯 莫 法 的 详细 信息 可 以 参考 文献 【9]】 
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在 上 文中 ， 我 们 知道 LDA 将 变量 theta 和 phi (为 了 方便 起 见 ， 我 们 将 上 
X LDA 图 模型 中 的 beta RAT phi ) 看 做 随机 变量 ， 并 且 为 theta 添加 一 个 
超 参 数 为 alpha 的 Dirichlet 先 验 ， 为 phi 添加 一 个 超 参数 
eta 的 Dirichlet 先 验 来 估计 theta 和 beta 的 最 大 后 验 ( MAP ) ° T 
过 最 优化 最 大 后 验 估计 来 估计 参数。 我 们 首先 来 定义 几 个 变量 : 


e FAA gamma ARAMA w ， 文 档 为 j 时 ， 主 题 为 k 的 概率 ， 如 公式 
(3.1.1) 


Ywjk = P(Z = k|x 2w,d =j) 


SN {WISA RI w 在 文档 j 中 出 现 的 次 数 ; 


$N_{wk}$ 表 示 词 w 在 主题 k 中 出 现 的 次 数 ， 如 公式 (3.1.2) 


Ny RS & wj Yw jk 


$N_{kj}$ 表 示 主 题 k 在 文档 j 中 出 现 的 次 数 ， 如 公式 (3.1.3) 


d wj Yw jk 


$N_{k}$ 表 示 主 题 k 中 包含 的 词 出 现 的 总 次 数 ， 如 公式 (3.1.4) 


Ny = y Nwk 
w 


e $N_1)$ 表 示 文 档 j 中 包含 的 主题 出 现 的 总 次 数 ,如 公式 (3.1.5) 


N; => M 
k 


根据 文献 【4】 中 2.2 章节 的 介绍 ， 我 们 可 以 推导 出 如 下 更 新 公式 (3.1.6)， 其 
中 alpha 和 eta 均 大 于 1 : 


— (Nux +7 —1)(Nej +a — 1) 
NM (Ne + Wm — W) 


收敛 之 后 ， 最 大 后 验 估计 可 以 得 到 公式 (3.1.7) : 


Nwk+n-1 5 eh 


ae. [an oe 


变 分 EM 算法 的 流程 如 下 : 
e 1 初始 化 状态 ， 即 随机 初始 化 $NYwkS 和 SN(kj}$ 


e 2 E- 步 ， 对 每 一 个 (文档 ， 词 汇 ) 对 i 3 X$P((w(üd ()9* Æ 
新 gamma 值 


e 3 M- 步 ， 计 算 隐 藏 变量 phi 和 theta 。 即 计算 $NHwkS 和 8$N(kj}$ 
o 4 重复 以 上 2、3 两 步 ， 直 到 满足 最 大 和 迭代 数 


第 4.2 章 会 从 代码 层面 说 明 该 算法 的 实现 流程 。 
3.2 在 线 学 习 算 法 


3.2.1 批量 变 分 贝 叶 斯 


在 变 分 贝 叶 斯 推导 ( VB ) 中 ， 根 据 文献 【3】， 使 用 一 种 更 简单 的 分 
Ay q(z,theta,beta) 来 估计 真正 的 后 验 分 布 ， 这 个 简单 的 分 布 使 用 一 组 自由 变量 
( free parameters ) 来 定义 。 通过 最 大 化 对 数 似 然 的 一 个 下 界 〈 Evidence 
Lower Bound (ELBO) ) 来 最 优化 这 些 参 数 ， 如 下 公式 (3.2.1) 


log p(w|a, n) 2 £(w, $, Y, A) 5 E, [log p(w, z, 8, Bla, n)] 一 了 logd(z,6,D)] 


最 大 化 ELBO 就 是 最 小 
化 q(z,theta,beta) 和 p(z,theta,beta|w,alpha,eta) 的 KL 距离 。 根 据 文 
献 【3】， 我 们 将 q 因 式 分 解 为 如 下 (3.2.2) 的 形式 : 


q (zai = k) = Odak q(04) = Dirichlet(0,; ya); q( Bx) = Dirichlet( 8%; A) 


后 验 z 通过 phi 来 参数 化 ， 后 验 theta 通过 gamma 来 参数 化 ， 后 
Jt beta 通过 lambda 来 参数 化 。 为 了 简单 描述 ， 我 们 把 lambda 当 作 “ 主 题 " 来 看 
待 。 公 式 (3.2.2) 分 解 为 如 下 (3.2.3) 形 式 : 


L(w, Q, y, X) = 24 {Eallogp(wal0a, za, B)] + Eq[log p(za|04)] — Eq [log q(za)] 
T E, [log p(64|a)] — E, [log q(04)] + (E, [log p(8|n)] — Eq [log q(8))/D) 


我 们 现在 将 上 面 的 期 望 扩展 为 变 分 参数 的 函数 形式 。 这 反映 了 变 分 目标 只 依赖 
F$n_{dw}$ ， 即 词 w 出 现在 文档 d 中 的 次 数 。 当 使 用 VB 算法 时 ， 文 档 可 以 通 
过 它们 的 词 频 来 汇总 ( summarized ) ， 如 公式 (3.2.4) 

L — Ya Ndw Dk $avr(EKoallog 04] + Eallog bkw] — log ddwr) 
— logIT ($ y Yak) + 224 (o — Yak )Eg[log Oar] + log Pai.) 


F Da m log (So. Akw) d: KE m Akw )IÉq [log Bw] T logT (Mw))/D 
+logT(Ka)— KlogT(a)+ (logT(W”n)— WlogT(n))/D 


= Ya (na, Qd, Yd; 入 )， 


上 面 的 公式 中 ，W 表示 词 的 数量 ， D 表示 文档 的 数量 。 1 表示 文 
i d 对 ELBO 所 做 的 贡献 。 L 可 以 通过 坐标 上 升 法 来 最 优化 ， 它 的 更 新 公式 如 
(3.2.5): 


Pdwk X exp{Eg[log O44] + Eollog Bkw]}; Yak = 0 p nawdawk; Mew =N+ 2 g NdwPdwk 


log(theta) 和 log(beta) 的 期 望 通 过 下 面 的 公式 (3.2.6) 计 算 : 
E, [log buk] = Y (yak) 一 Ue, yai); Eg[log bkw] = V(Axw) 一 wo, dul 
通过 EM 算法 ， 我 们 可 以 将 这 些 更 新 分 解 成 E- 步 和 Mob 。 E-F 
给 定 p 


定 lambda 来 更 新 gamma 和 phi ; M- 步 通过 hi 来 更 新 lambda ° 
4t VB 算法 的 过 程 如 下 (算法 1) 所 示 : 


Initialize A randomly. 
while relative improvement in £(w, $, y, A) > 0.00001 do 


E step: 
for d — 1to D do 
Initialize yag = 1. (The constant 1 is arbitrary.) 


repeat 
Set dwk X exp{E, [log Oar] 十 E; [log Brw|} 


Set Yak = A + 9, PdwkNaw 
until + 5, |change inyax| < 0.00001 


end for 
M step: 
end while 


3.2.2 在 线 变 分 贝 叶 斯 

批量 变 分 贝 叶 斯 算法 需要 固定 的 内 存 ， 并 且 比 吉 布 斯 采样 更 快 。 但 是 它 仍 然 需 
要 在 每 次 迭代 时 处 理 所 有 的 文档 ， 这 在 处 理 大 规模 文档 时 ， 速 度 会 很 慢 ， 并 且 也 不 
适合 流 式 数据 的 处 理 。 文献 【5】 提 出 了 一 种 在 线 变 分 推导 算法 。 设 
定 gamma(n d,lambda) 和 phi(n d,lambda) 分 别 表 示 gamma d 和 phi d 的 
值 ， 我 们 的 目的 就 是 设 定 phi 来 最 大 化 下 面 的 公式 (3.2.7) 
L(n,r) 全 Dat(na, y(na, A), ona, A), A) 
THA VB 算法 。 因 为 词 频 的 第 t 个 向 量 $n_{t$ 是 可 观察 


o 


我 们 在 算法 2 中 介绍 
的 ， 我 们 在 E- 步 通过 固定 lambda 来 找到 gamma t 和 phi t 的 局 部 最 优 
然后 ， 我 们 计算 lambda cap 。 如 果 整 个 语料库 由 单个 文档 重复 D KAM? BA 
这 样 的 lambda cap 设置 是 最 优 的 。 之 后 ， 我 们 通过 lambda 之 前 的 值 以 
及 lambda cap 来 更 新 lambda 。 我 们 给 lambda cap 设置 的 权重 如 公式 (3.2.8) 


所 示 : 
p, & (T +t) =, K € (0.5,1] 


在 线 VB 算法 的 实现 流程 如 下 算法 2 所 示 


Define p; 全 (To + t)^^ 
Initialize 入 randomly. 
for t = 0 to co do 


E step: 
Initialize yk = 1. (The constant 1 is arbitrary.) 
repeat 
Set Ptwk x exp{E, [log Otk] F Eg [log Brew] } 
Set f = 2 + w Ptwkltw 
until + > 六 change i inyzx| < 0.00001 
M step: 


Compute kw = N + Drawótwk 
Set A = (1 一 Dr) 入 十 pÀ. 
end for 


那么 在 在 线 VB 算法 中 ， alpha fe eta 是 如 何 更 新 的 呢 ? 参考 文献 【8】 提 
供 了 计算 方法 。 给 定数 据 集 ， dirichlet 参数 的 可 以 通过 最 大 化 下 面 的 对 数 似 然 
来 估计 


F(a) = logp(Dla) = los | [ ptr. la) 
= wel] Tish E mc 


N (sr » .- Doel ak) * 3 Ok — Dieci 
k 





其 中 ， 


Dk = wD, log viz 


有 多 种 方法 可 以 最 大 化 这 个 目标 函数 ， 如 梯度 上 升 ， Newton- 
Raphson 等 。 Spark 使 用 Newton-Raphson 方法 估计 参数 ， 更 
新 alpha ° Newton-Raphson 提供 了 一 种 参数 二 次 收敛 的 方法 ， 它 一 般 的 更 新 
规则 如 下 公式 (3.3.3): 


amew = gld ES H-(F) .VF 
其 中 ，H 表示 海 森 矩阵 。 对 于 这 个 特别 的 对 数 似 然 函 数 ， 可 以 应 用 Newton- 


Raphson 去 解决 高 维 数据 ， 因 为 它 可 以 在 线性 时 间 求 出 海 森 矩 阵 的 逆 和 矩阵 。 一 般 情 
况 下 ， 海 森 算 阵 可 以 用 一 个 对 角 答 阵 和 一 个 元 素 都 一 样 的 矩阵 的 和 来 表示 。 如 下 公 


式 (3.3.4) ，Q XXL AM > C11 是 元 素 相同 的 一 个 矩阵 。 


H = Q+cll’ 
dk = -—NW'(ax)ó(j — k) 


ovis) 


AY Th X ae ARE IE 89 EE > AAT MRS] ^ AE A TAFE Q 和 非 负 标 
€ c ， 有 下 列 式 子 (3.3.5): 


Hint. oe) . » 4. 9090 "No To 
(«en (9^ arn) = 97 Po rw teu" 
eii tui 
~ 1/c+17Q-11 
= QQ" + : —117Q7* + 117Q* 


1/e+17Q-11 ( 
+c117Q71(17Q7"1) - (1T Q7! 117 Q7!) 
1 


AA Q 是 对 角 和 矩阵 ， 所 以 Q 83ÉAE EST ARR D TE E B PT 
以 Newton-Raphson 的 更 新 规则 可 以 重 写 为 如 下 (3.3.6) 的 形式 


) VF TT b 
a = wee "M ( )k 
dkk 


其 中 b 如 下 公式 (3.3.7)， 


b= Q—iu7Q7 _ 2i(VF)s/a55 
~ l/cri^Q^'1 — 1/z*t5,,1/ajj 


4 LDA/X È 3L 


4.1 LDA 使 用 实例 


我 们 从 官方 文档 【6】 给 出 的 使 用 代码 为 起 始点 来 详细 分 析 LDA 的 实现 。 


import org.apache.spark.mllib.clustering.{LDA, DistributedLDAMod 
el) 
import org.apache.spark.mllib.linalg.Vectors 
val data = sc.textFile("data/mllib/sample_lda_data.txt") 
val parsedData - data.map(s -» Vectors.dense(s.trim.split(' ').m 
ap(. .toDouble))) 
// 为 文档 编号 ， 编 号 唯一 。List ( (id’ vector) .... 
val corpus = parsedData.zipWithIndex.map(_.swap).cache() 
val ldaModel = new LDA().setK(3).run(corpus) 
val topics = ldaModel.topicsMatrix 
for (topic <- Range(0, 3)) { 
print(' Topic " + topic + ":") 
for (word <- Range(0, ldaModel.vocabSize)) { print(" " + topic 
s(word, topic)); } 
println() 


以 上 代码 主要 做 了 两 件 事 : 加 载 和 切 分 数据 、 训 练 模型 。 在 样本 数据 中 ， 每 一 
行 代表 一 篇 文档 ， 经 过 处 理 后 ， corpus 的 类 型 为 List((id,vector)*) ， 一 
个 (id,vector) 代表 一 篇 文档 。 将 处 理 后 的 数据 传 
给 org.apache.spark.mllib.clustering.LDA 类 的 run 方法 ， 就 可 以 开始 训 
练 模型 。 run 方法 的 代码 如 下 所 示 : 


def run(documents: RDD[(Long, Vector)]): LDAModel = { 
val state = ldaOptimizer.initialize(documents, this) 
var iter = 0 
val iterationTimes = Array.fill[Double](maxIterations) (0) 
while (iter < maxIterations) { 
val start = System.nanoTime( ) 
state.next() 
val elapsedSeconds = (System.nanoTime() - start) / 1e9 
iterationTimes(iter) = elapsedSeconds 
iter += 1 
j 
state.getLDAModel(iterationTimes ) 


这 段 代码 首先 调用 initialize 方法 初始 化 状态 信息 ， 然 后 循环 和 迭代 调 
用 next 方法 直到 满足 最 大 的 迭代 次 数 。 在 我 们 没有 指定 的 情况 下 ， 迁 代 次 数 默 认 
为 20。 需 要 注意 的 是 ， 1ldaoptimizer 有 两 个 具体 的 实现 
类 EMLDAOptimizer 和 OnlineLDAOptimizer ， 它 们 分 别 表示 使 用 EM 算法 和 在 
线 学 习 算 法 实现 参数 估计 。 在 未 指定 的 情况 下 ， 默 认 使 用 EMLDAOptimizer ° 


4. 2€ 变 分 EM 算 法 的 E 


在 spark 中 ， in GraphX 来 实现 EMLDAOptimizer ， 这 个 图 是 有 两 种 类 
型 的 顶点 的 二 分 图 。 这 两 类 顶点 分 别 是 文档 顶点 ( Document vertices ) 和 词 顶 


点 ( Term vertices ) » 
e 文档 顶点 使 用 大 于 0 的 唯一 的 指标 来 索引 ， 保 存 长 度 为 k (主题 个 数 ) 的 向 量 


e 词 顶点 使 用 (-1, -2, ..., -vocabSize) 来 索引 ， 保 存 长 度 为 k (主题 个 
数 ) 的 向 量 


e 边 ( edges ) 对 应 词 出 现在 文档 中 的 情况 。 边 的 方向 是 document -> 
term ， 并 且 根 据 document 进行 分 区 


我 们 可 以 根据 3.1 节 中 介绍 的 算法 流程 来 解析 源 代码 。 
4.2.1 初始 化 状态 


spark 在 EMLDAOptimizer 的 initialize 方法 中 实现 初始 化 功能 。 包 括 
初始 化 Dirichlet 参数 alpha 和 eta 、 初 始 化 边 、 初 始 化 顶点 以 及 初始 化 图 。 


// 对 应 超 参数 alpha 

val docConcentration = lda.getDocConcentration 

// 对 应 超 参 数 eta 

val topicConcentration = lda.getTopicConcentration 
this.docConcentration = if (docConcentration == -1) (50.0 / k) 
+ 1.0 else docConcentration 

this.topicConcentration = if (topicConcentration == -1) 1.1 else 
topicConcentration 





El = , 





上 面 的 代码 初始 化 了 超 参数 alpha 和 eta ， 根 据 文献 【4】， 当 alpha 未 
指定 时 ， 初 始 化 其 为 (50.0 / k) + 1.0 ， 其 中 k 表示 主题 个 数 。 当 eta 未 指 
定时 ， 初 始 化 其 为 1.1。 


// 对 于 每 个 文档 ， 为 每 一 个 唯一 的 Term 创 建 一 个 (Document->Term) 的 边 
val edges: RDD[Edge[TokenCount]] = docs.flatMap { case (docID: L 
ong, termCounts: Vector) => 
// Add edges for terms with non-zero counts. 
termCounts.toBreeze.activeIterator.filter( . 2 != 0.0).map 
{ case (term, cnt) => 
//X*id > termindex > 3438 
Edge(docID, term2index(term), cnt) 


} 
} 
//term2index#term#A{-1, -2, ..., -vocabSize) 7l 
private[clustering] def term2index(term: Int): Long = -(1 + ter 
m.toLong) 


上 面 的 这 段 代 码 处 理 每 个 文档 ， 对 文档 中 每 个 唯一 的 Term (334) 创建 一 个 
边 ， 边 的 格式 为 (文档 1d， 词 索引 ， 词 频 ) 。 词 索引 为 {-1，-2，...，- 


vocabSize} ° 


val docTermVertices: RDD[(VertexId, TopicCounts)] = { 
val verticesTMP: RDD[(VertexId, TopicCounts)] = 
edges.mapPartitionswithIndex { case (partIndex, partEdge 
S) => 
val random = new Random(partIndex + randomSeed) 


partEdges.flatMap { edge => 
val gamma = normalize(BDV.fill[Double](k) (random. nex 


tDouble()), 1.0) 


/ / 52: t] sumzDenseVector > gamma*N wj 


val sum - gamma * edge.attr 
- et | | 本 -| 主 9. 23 du 8] 


lad? dst ds te 
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Seq((edge.srcId, sum), (edge.dstId, sum)) 


//Src1 


j 


verticesTMP.reduceByKey( + ) 


上 面 的 代码 创建 顶点 。 我 们 为 每 个 主题 随机 初始 化 一 个 值 ， 即 gamma 是 随机 
的 。 sum A gamma * edge.attr ， 这 里 的 edge.attr PP N wj ,所 
以 sum 用 gamma * N_wj 作为 顶点 的 初始 值 。 


this.graph = Graph(docTermVertices, edges).partitionBy(Partition 


Strategy.EdgePartitioniD) 
上 面 的 代码 初始 化 Graph 并 通过 文档 分 区 。 


4.2.2 E- 步 : 更 新 gamma 


val eta = topicConcentration 
val W = vocabSize 
val alpha = docConcentration 
val N_k = globalTopicTotals 
val sendMsg: EdgeContext[TopicCounts, TokenCount, (Boolean, 
TopicCounts)] => Unit = 
(edgeContext) => { 
// 计算 N (wj) gamma_{wjk} 
val N wj = edgeContext.attr 
// E-STEP: 计算 gamma {wjk} 通过 N_{wj} 来 计算 
// 此 处 的 edgeContext.srcAttr 为 当前 迭代 的 N_kj , edgeContext.d 
StAttr 为 当前 迭代 的 N awk, 


-og MY GE /二 人 下 Se AS aL de pe 
// 后 面 通过 M- 会 更 新 这 两 个 值 , 作为 下 一 次 迭代 的 当前 值 








val be dM rae TopicCounts - 
computePTopic(edgeContext.srcAttr, edgeConte 
xt.dstAttr, N k, W, eta, alpha) *= N wj 
edgeContext.sendToDst((false, scaledTopicDistribution)) 
edgeContext.sendToSrc((false, scaledTopicDistribution)) 


上 述 代 码 中 ，W 表示 词 数 ，N k 表示 所 有 文档 中 ， 出 现在 主题 k 中 的 词 的 
词 频 总 数 ， 后 续 的 实现 会 使 用 方法 computeGlobalTopicTotals 来 更 新 这 个 
fic N wj 表示 词 w 出 现在 文档 j 中 的 词 频数 ， 为 已 知 数 。 E- 步 就 是 利用 公 
式 (3.1.6) 去 更 新 gamma 。 代码 中 使 用 computePTopic 方法 来 实现 这 个 更 
新 。 cuperent 通过 方法 sendToDst 将 scaledTopicDistribution 发 送 到 
目标 顶点 ， 通 过 方法 sendTosrc 发 送 到 源 顶 点 以 便于 后 续 的 M- 步 更 新 
的 N kj 和 N wk 。 下 面 我 们 看 看 computePTopic 方法 。 


private[clustering] def computePTopic( 

docTopicCounts: TopicCounts, 
termTopicCounts: TopicCounts, 
totalTopicCounts: TopicCounts, 
vocabSize: Int, 
eta: Double, 
alpha: Double): TopicCounts = { 

val K = docTopicCounts.length 

val N_j = docTopicCounts.data 

val N_w = termTopicCounts.data 

val N = totalTopicCounts.data 

val etai = eta - 1.0 

val alphai = alpha - 1.0 

val Weta1 = vocabSize * etal 

var sum = 0.0 

val gamma_wj = new Array[Double](K) 

var k = 0 

while (k < K) { 
val gamma wjk = (N_w(k) + etal) * (N j(k) + alphai) / (N(k 

) + Weta) 

gamma_wj(k) = gamma_wjk 
sum += gamma_wjk 
k += 1 

} 

// normalize 


BDV(gamma_wj) /= sum 


这 段 代码 比较 简单 ， 完 全 按照 公式 (3.1.6) 表 示 的 样子 来 实现 。 val gamma wjk 
= (N w(k) + etal) * (N j(k) + alpha1) / (N(k) + Wetai) 就 是 实现 的 更 新 
3g Ho 


4.2.3 M- 步 : 更 新 phi 和 theta 


// M-STEP: 荣 合 什 具 新 的 N_{kj}, N (wk) counts. 


val docTopicDistributions: VertexRDD[TopicCounts] = 
graph.aggregateMessages[(Boolean, TopicCounts)](sendMsg, merg 


eMsg).mapValues(.. 2) 
我 们 由 公式 (3.1.7) 可 知 ， 更 新 隐藏 变量 phi 和 theta 就 是 更 新 相应 


的 N kj 和 N wk 。 有 聚合 更 新 使 用 aggregateMessages 方法 来 实现 。 请 参考 文 
献 【7】 来 了 解 该 方法 的 作用 。 


4.3 在 线 变 分 算法 的 代码 实现 


4.3.1 初始 化 状态 


在 线 学 习 算 法 首先 使 用 方法 initialize 方法 初始 化 参数 值 


override private[clustering] def initialize( 
docs: RDD[(Long, Vector)], 
lda: LDA): OnlineLDAOptimizer = { 
this.k = lda.getK 
this.corpusSize = docs.count() 
this.vocabSize = docs.first()._2.size 
this.alpha = if (lda.getAsymmetricDocConcentration.size == 


) { 

if (lda.getAsymmetricDocConcentration(0) == -1) Vectors.de 
nse(Array.fill(k)(1.0 / k)) 

else ( 


require(lda.getAsymmetricDocConcentration(9) >= 0, 
s"all entries in alpha must be >=0, got: $alpha") 
Vectors.dense(Array.fill(k)(lda.getAsymmetricDocConcentr 
ation(9))) 
} 
} else { 

require(lda.getAsymmetricDocConcentration.size == k, 
s"alpha must have length k, got: $alpha") 

lda.getAsymmetricDocConcentration.foreachActive { case (_, 


X) => 
require(x >= 0, s"all entries in alpha must be >= 0, got 
: $alpha") 
} 
lda.getAsymmetricDocConcentration 
} 
this.eta = if (lda.getTopicConcentration == -1) 1.0 / k else 


lda.getTopicConcentration 
this.randomGenerator = new Random(lda.getSeed) 
this.docs - docs 
// 初始 化 变 分 分 布 q(beta|lambda) 
this.lambda = getGammaMatrix(k, vocabSize) 
this.iteration = 0 
this 


根据 文献 【5】 > alpha 和 eta 的 值 大 于 等 于 0， 并 且 默 认为 1.0/k » EX 
使 用 getGammaMatrix 方法 来 初始 化 变 分 分 布 q(beta|lambda) ° 


private def getGammaMatrix(row: Int, col: Int): BDM[Double] = { 

val randBasis = new RandBasis(new org.apache.commons.math3.r 
andom.MersenneTwister( 

randomGenerator.nextLong( ))) 

/ / 313516 — 4 gamma 2-7 

val gammaRandomGenerator = new Gamma(gammaShape, 1.0 / gamma 
Shape)(randBasis) 

val temp - gammaRandomGenerator.sample(row * col).toArray 

new BDM[Double](col, row, temp).t 


getcammaMatrix 方法 使 用 gamma 分 布 初始 化 一 个 随机 矩阵 。 
4.3.2 更 新 参数 


override private[clustering] def next(): OnlineLDAOptimizer = { 


/ / 3E El SC RP RAEI TR 
// 黑 认 情 况 下 ， 文 档 可 以 被 采样 多 次 ， 且 采样 比例 是 9.05 
val batch = docs.sample(withReplacement = samplewithReplacem 
ent, miniBatchFraction, 
randomGenerator.nextLong( )) 
if (batch.isEmpty()) return this 


submitMiniBatch(batch) 


以 上 的 next 方法 首先 对 文档 进行 采样 ， 然 后 调用 submitMiniBatch 对 采样 
的 文档 子 集 进行 处 理 。 下 面 我 们 详细 分 解 submitMiniBatch 方法 。 


e 1 计算 log(beta) 的 期 望 ， 并 将 其 作为 广播 变量 广播 到 集群 中 


val expElogbeta = exp(LDAUtils.dirichletExpectation(lambda)).t 


val expElogbetaBc = batch.sparkContext.broadcast(expElogbeta) 


// 4. 3xalphavxdirichlet Z 
private[clustering] def dirichletExpectation(alpha: BDM[Double]) 
: BDM[Double] = { 

val rowSum = sum(alpha(breeze.linalg.*, ::)) 

val digAlpha = digamma(alpha) 

val digRowSum = digamma(rowSum) 

val result = digAlpha(::, breeze.linalg.*) - digRowSum 


result 


上 述 代 码 调 用 exp(LDAUtils.dirichletExpectation(lambda)) 方法 实现 
参数 为 lambda 的 log beta 的 期 望 。 实 现 原理 参见 公式 (3.2.6)。 


e 2 计算 phi 以 及 gamma ， 即 算法 2 中 的 E- 步 


val stats: RDD[(BDM[Double], List[BDV[Double]])] = batch.mapPart 
itions { docs => 


val nonEmptyDocs = docs.filter(_._2.numNonzeros > 0) 
val stat = BDM.zeros[Double](k, vocabSize) 
var gammaPart = List[BDV[Double]]() 
nonEmptyDocs.foreach { case (_, termCounts: Vector) => 
val ids: List[Int] = termCounts match { 
case v: DenseVector => (0 until v.size).toList 
case v: SparseVector => v.indices.toList 
} 
val (gammad, sstats) = OnlineLDAOptimizer.variationalTop 
icInference( 
termCounts, expElogbetaBc.value, alpha, gammaShape, k) 
stat(::, ids) := stat(::, ids).toDenseMatrix + sstats 
gammaPart = gammad :: gammaPart 


} 


Iterator((stat, gammaPart)) 


上 面 的 代码 调用 onlineLDAOptimizer.variationalTopicInference 实现 
算法 2 中 的 E- 步 ,迭代 计算 phi 和 gamma ° 


private[clustering] def variationalTopicInference( 
termCounts: Vector, 
expElogbeta: BDM[Double], 
alpha: breeze.linalg.Vector[Double], 
gammaShape: Double, 
k: Int): (BDV[Double], BDM[Double]) = ( 
val (ids: List[Int], cts: Array[Double]) = termCounts match 


case v: DenseVector => ((0 until v.size).toList, v.values) 
case v: SparseVector => (v.indices.toList, v.values) 
} 
// 初始 化 变 分 分 布 q(theta|gamma) 
val gammad: BDV[Double] = new Gamma(gammaShape, 1.0 / gammaS 
hape).samplesVector(k) // K 
//ARA&2- X, (3.2.6) HH E(log theta) 
val expElogthetad: BDV[Double] - exp(LDAUtils.dirichletExpec 
tation(gammad)) // K 
val expElogbetad - expElogbeta(ids, ::).toDenseMatrix 
7/ ids * K 
// 根 据 公 式 (3.2.5) 计算 phi， 这 里 加 1e-100 表 示 并 非 严格 等 于 
val phiNorm: BDV[Double] = expElogbetad * expElogthetad :+ 1 
e-100 // ids 
var meanGammaChange = 1D 
val ctsVector = new BDV[Double](cts) 
// ids 
// 迭代 直至 收敛 
while (meanGammaChange > 1e-3) { 
val lastgamma = gammad.copy 
// 依 据 公 式 (3.2.5) 计 算 gamma 
gammad := (expElogthetad :* (expElogbetad.t * (ctsVector 
/ phiNorm))) :+ alpha 
// 根 据 更 新 的 gamma， 计 算 E(1og theta) 
expElogthetad := exp(LDAUtils.dirichletExpectation(gammad) 


// 更 新 phi 
phiNorm := expElogbetad * expElogthetad :+ 1e-100 
//i+ - X gamma 8 Z 4& 


meanGammaChange = sum(abs(gammad - lastgamma)) / k 
} 
val sstatsd = expElogthetad.asDenseMatrix.t * (ctsVector :/ 
phiNorm) .asDenseMatrix 
(gammad, sstatsd) 


e 3 更 新 lambda 


val statsSum: BDM[Double] = stats.map(_._1).reduce(_ += _) 
val gammat: BDM[Double] = breeze.linalg.DenseMatrix.vertcat( 
stats.map( . 2).reduce( ++ _).map(_.toDenseMatrix): _*) 
val batchResult - statsSum :* expElogbeta.t 
// 更 新 lambda 和 alpha 
updateLambda(batchResult, (miniBatchFraction * corpusSize).c 
eil.toInt) 


updateLambda 方法 实现 算法 2 中 的 M- 步 ,更 新 lambda 。 实 现代 码 如 下 : 


private def updateLambda(stat: BDM[Double], batchSize: Int): Unit 
= 4 
// 根据 公式 (3.2.8) HERE 
val weight = rho() 
// 更 新 1ambda， 其 中 Stat * (corpusSize.toDouble / batchSize.toD 
ouble)+etax ®rho_cap 
lambda := (1 - weight) * lambda + 
weight * (stat * (corpusSize.toDouble / batchSize.toDouble 
) + eta) 
} 
// 根据 公式 〈3.2.8) 计算 rho 
private def rho(): Double = { 
math.pow(getTauO + this.iteration, -getKappa) 


SaaS ni 


e 4 更 新 alpha 


private def updateAlpha(gammat: BDM[Double]): Unit = { 

// 计 算 rho 

val weight = rho() 

val N = gammat.rows.toDouble 

val alpha = this.alpha.toBreeze.toDenseVector 

//it#1og p hat 

val logphat: BDM[Double] - sum(LDAUtils.dirichletExpectation 
(gammat)(::, breeze.linalg.*)) / N 

// 计 算 梯度 为 N (-phi(alpha)+log p hat) 

val gradf = N * (-LDAUtils.dirichletExpectation(alpha) + log 
phat. toDenseVector ) 

// 计 算 公 式 (3.3.4) Figc > trigamma & 7 gamma $ ži — E 4 HK 

val c = N * trigamma(sum(alpha)) 

LE JEAN (3.8.4) Pg 

val q = -N * trigamma(alpha) 

/ RAE 2- A (3.3.7) i1 

val b = sum(gradf / q) / (1D / c + sum(1D / q)) 

val dalpha - -(gradf - b) / q 

if (all((weight * dalpha + alpha) :> 0D)) { 

alpha :+= weight * dalpha 
this.alpha = Vectors.dense(alpha.toArray) 
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二 分 k-means 算法 


> 


= -means 算法 是 分 层 聚 类 (Hierarchical clustering) 的 一 种 ， 分 层 聚 类 
是 聚 类 分 析 中 常用 的 方法 。 分 层 聚 类 的 策略 一 般 有 两 种 : 


e 聚合 。 这 是 一 种 自 底 向 上 的 方法 ， 每 一 个 观察 者 初始 化 本 身 为 一 类 ， 然 后 两 


两 
e 分 裂 。 这 是 一 种 自 顶 向 下 的 方法 ， 所 有 观察 者 初始 化 为 一 类 ， 然 后 递归 地 分 


二 分 k-means 算法 是 分 裂 法 的 一 种 。 


S 


1 二 分 k-means 的 步骤 
二 分 k-means 算法 是 k-means 算法 的 改进 算法 ， 相 比 k-means 算法 ， 它 有 
如 下 优点 : 


e 二 分 k-means 算法 可 以 加 速 k-means 算法 的 执行 速度 ， 因 为 它 的 相似 度 计 
RYT 
e 能 够 克服 k-means 收敛 于 局 部 最 小 的 缺点 


二 分 k-means 算法 的 一 般 流 程 如 下 所 示 : 
e (1) 把 所 有 数据 初始 化 为 一 个 徐 ， 将 这 个 徐 分 为 两 个 徐 。 


(2) 选择 满足 条 件 的 可 以 分 解 的 徐 。 选 择 条 件 综合 考虑 簇 的 元 素 个 数 以 及 聚 
类 代价 (也 就 是 误差 平方 和 SSE ) ， 误 差 平 方 和 的 公式 如 下 所 示 ， 其 中 
$w (JSA TREI > SISA TARIA A PAE o 


n 
SSE = ) win - y" 
1 


e (3) 使 用 k-means 算法 将 可 分 裂 的 徐 分 为 两 徐 。 


e (4) 一 直 重 复 (2) (3) 步 ， 直 到 满足 迭代 结束 条 件 。 


以 上 过 程 隐 含 着 一 个 原则 是 : 因为 聚 类 的 误差 平方 和 能 够 衡量 聚 类 性 能 ， 该 值 
越 小 表示 数据 点 越 接近 于 它们 的 质心 ， 聚 类 效果 就 越 好 。 所 以 我 们 就 需要 对 误差 平 
方 和 最 大 的 繁 进 行 再 一 次 的 划分 ， 因 为 误差 平方 和 越 大 ， 表 示 该 簇 聚 类 越 不 好 ， 越 
ATA GS SERS RPT ARMING AGRA PRET © 


2 二 分 k-means 的 源码 分 析 


spark 在 文 
fF org.apache.spark.mllib.clustering.BisectingKMeans 中 实现 了 二 分 k- 
means 算法 。 在 分 步骤 分 析 算 法 实现 之 前 ， 我 们 先 来 了 解 BisectingKMeans 类 中 
参数 代表 的 含义 。 


class BisectingKMeans private ( 
private var k: Int, 
private var maxIterations: Int, 
private var minDivisibleClusterSize: Double, 
private var seed: Long) 


上 面 代码 中 ，k 表示 叶子 繁 的 期 望 数 ， 默 认 情 况 下 为 4。 如 果 没 有 可 被 切 分 的 
tF’ EMEA o maxIterations ARTI] k-means 算法 的 最 大 选 
代 次 数 ， 默 认为 20。 minDivisibleClusterSize 的 值 如 果 大 于 等 于 1， 它 表示 一 
个 可 切 分 簇 的 最 小 点 数量 ; 如 果 值 小 于 1， 它 表示 可 切 分 繁 的 点 数量 占 总 数 的 最 小 
比例 ， 该 值 默认 为 1。 


BisectingKMeans 的 run 方法 实现 了 二 分 k-means 算法 ， 下 面 将 一 步 步 
分 析 该 方法 的 实现 过 程 。 


e (1) 初始 化 数据 


// 计 算 输 入 数据 的 二 范式 并 转化 为 VectorwWithNorm 

val norms = input.map(v => Vectors.norm(v, 2.0)).persist(Storage 
Level .MEMORY_AND_DISK ) 

val vectors = input.zip(norms).map { case (x, norm) => new Vecto 
rwithNorm(x, norm) } 


e (2) HAA GE 867] — ASA o HITHER 


var assignments = vectors.map(v => (ROOT_INDEX, v)) 
var activeClusters = summarize(d, assignments) // 格 式 为 Map[index,， 
ClusterSummary | 


val rootSummary = activeClusters(ROOT_INDEX) 


fe Lik RAG P > B-BAD SW b—^8 4X5] > 7E LESE AR E ERE NO 
上 的 深度 ， ROOT INDEX 的 值 为 1。 summarize 方法 计算 误差 平方 和 ， 我 们 来 看 
看 它 的 实现 。 


private def summarize( 
d: Int， 
assignments: RDD[(Long, VectorWwithNorm)]): Map[Long, Clust 
erSummary] = { 
assignments.aggregateByKey(new ClusterSummaryAggregator(d))( 


//ZNwn nh? 
//4] E P 8A 


seqOp = (agg, v) => agg.add(v), 
combOp = (aggi, agg2) => aggi1.merge(agg2) 

).mapValues(. .summary) 

.collect().toMap 


这 里 的 gd 表示 特征 维度 ， 代 码 对 assignments 使 用 aggregateByKey 操 
作 ， 根 据 key 值 在 分 区 内 循环 添加 ( add ) 数据 ， 在 分 区 间 合 并 〈 merge ) 数 
据 集 ， 转 换 成 最 终 ClusterSummaryAggregator 对 象 ， 然 后 针对 每 个 key ， 调 
用 summary 方法 ， 计 算 。 ClusterSummaryAggregator 包含 三 个 很 简单 的 方 


法 ， 分 别 是 add ， merge 以 及 summary 。 


private class ClusterSummaryAggregator(val d: Int) extends Seria 
lizable { 
private var n: Long = 
private val sum: Vector = Vectors.zeros(d) // 向 量 和 
private var sumSq: Double = 0.0 // 向 量 的 范 数 平方 和 
/ / Tja — ^NectorWithNorm*t & $|clustersummaryAggregator 4 £P 
def add(v: VectorWithNorm): this.type - ( 
n += 1L 
sumSq += v.norm * v.norm 
BLAS.axpy(1.0, v.vector, sum) 
this 
} 
// 合 并 两 个 ClusterSummaryAggregator 对 象 
def merge(other: ClusterSummaryAggregator): this.type = { 
n += other.n 
sumSq += other.sumSq 
//Y t= a X 
BLAS.axpy(1.0, other.sum, sum) 
this 
} 
def summary: ClusterSummary = { 
// 求 平均 什 
val mean = sum.copy 
di (ier OL si 
//xX =a * Xx 
BLAS.scal(i.0 / n, mean) 
} 
val center = new VectorWithNorm(mean) 
// 所 有 点 的 范 数 平方 和 减 去 n 乘 以 中 心 点 范 数 平方 ， 得 到 误差 平方 和 
val cost = math.max(sumSq - n * center.norm * center.norm, 
0.0) 
new ClusterSummary(n, center, cost) 


EO n 


这 里 计算 误差 平方 和 与 第 一 章 的 公式 有 所 不 同 ， 但 是 效果 一 致 。 这 里 计算 聚 类 
代价 函数 的 公式 如 下 所 示 : 


0, x«i) 


n 
SSE = 
X vik- II) x20 
1 


RRG-SRLE? MINFLZMORAARDPATPRAWR: BAMLANY 
要 求 。 迭 代 停 止 的 条 件 是 activeClusters AF? X 
者 numLeafClustersNeeded 为 0 ( 即 没 有 分 裂 的 叶子 徐 ) ,或 者 迭代 深度 大 
于 LEVEL_LIMIT 。 


while (activeClusters.nonEmpty && numLeafClustersNeeded > 0 && 1 
evel < LEVEL_LIMIT) 


这 里 ， LEVEL LIMIT 是 一 个 较 大 的 值 ， 计 算 方法 如 下 。 


private val LEVEL LIMIT = math.logi0(Long.MaxValue) / math.1log10( 
2) 


ee 
。 (3) 获取 需要 分 裂 的 区 


在 每 一 次 迭代 中 ， 我 们 首先 要 做 的 是 获取 满足 条 件 的 可 以 分 裂 的 徐 。 





var divisibleClusters = activeClusters.filter { case (_, summar 
y) => 
(summary.size >= minSize) && (summary.cost > MLUtils.EPSILON 
* summary.size) 
} 
// If we don't need all divisible clusters, take the larger one 
S. 
if (divisibleClusters.size > numLeafClustersNeeded) { 
divisibleClusters = divisibleClusters.toSeq.sortBy { case (_ 
, summary) => 
-summary.size 
}.take(numLeafClustersNeeded ) 
. toMap 


这 里 选择 分 裂 的 簇 用 到 了 两 个 条 件 ， 即 数据 点 的 数量 大 于 规定 的 最 小 数量 以 及 
代价 小 于 等 于 MLUtils.EPSILON * summary.size 。 并 且 如 果 可 分 解 的 徐 的 个 数 
多 余 我 们 规定 的 个 数 numLeafClustersNeeded PP (k-1) ， 那 么 我 们 取 和 包含 数量 
最 多 的 numLeafClustersNeeded MATIX ° 


e (4) 使 用 k-means 3X E439 2-8 894 2-857) RE 


我 们 知道 ， k-means 算法 分 为 两 步 ， 第 一 步 是 初始 化 中 心 点 ， 第 二 步 是 迭代 
更 新 中 心 点 直至 满足 最 大 迭代 数 或 者 收 化 。 下 面 就 分 两 步 来 说 明 。 


e 第 一 步 ， 随 机 的 选择 中 心 点 ， 将 可 分 裂 狂 分 为 两 于 


var newClusterCenters = divisibleClusters.flatMap { case (index, 
summary) => 
/ / ETA A c BADR PO A 
val (left, right) - splitCenter(summary.center, random) 
Iterator((leftChildIndex(index), left), (rightChildIndex(ind 
ex), right)) 
}.map(identity) 


在 上 面 的 代码 中 ， 用 splitcenter 方法 将 徐 随 机 地 分 为 了 两 给 ， 并 返回 相应 
的 中 心 点 ， 它 的 实现 如 下 所 示 。 


private def splitCenter( 


A 


LU 


center: VectorWithNorm, 

random: Random): (VectorwithNorm, VectorWithNorm) = { 
val d = center.vector.size 
val norm - center.norm 
val level - 1e-4 * norm 
// 随 机 的 初始 化 一 个 点 ， 并 用 这 个 点 
val noise = Vectors.dense(Array.fill(d)(random.nextDouble()) 


得 到 两 个 初始 中 心 点 


val left = center.vector.copy 

//y += a * x,left=left-level*noise 

BLAS.axpy(-level, noise, left) 

val right = center.vector.copy 
//right=right+level*noise 

BLAS.axpy(level, noise, right) 

// 返 回 中 心 点 

(new VectorwithNorm(left), new VectorWithNorm(right ) ) 


二 步 ， 迭代 更 新 中 心 点 


var newClusters: Map[Long, ClusterSummary] = null 
var newAssignments: RDD[(Long, VectorWithNorm)] = null 
/ / ERR PIS KR? RUVGERKRA 20 
for (iter <- 0 until maxIterations) { 

// 根 据 更 新 的 中 心 点 ， 将 数据 点 重新 分 类 

newAssignments = updateAssignments(assignments, divisibleInd 
ices, newClusterCenters) 

.filter { case (index, _) => 


divisibleIndices.contains(parentIndex (index) ) 


SES PIL TG A e ER 


newClusters = summarize(d, newAssignments) 
newClusterCenters = newClusters.mapValues(_.center).map(iden 
tity) 
} 
val indices = updateAssignments(assignments, divisibleIndices, 
newClusterCenters).keys 
.persist(StorageLevel.MEMORY AND DISK) 


这 段 代码 中 ， updateAssignments 会 根据 更 新 的 中 心 点 将 数据 分 配给 距离 其 
最 短 的 中 心 点 所 在 的 给 ， 即 重新 分 配 徐 。 代 码 如 下 


private def updateAssignments(assignments: RDD[(Long, Vectorwith 
Norm)],divisibleIndices: Set[Long], 
newClusterCenters: Map[Long, VectorWithNorm]): RDD[(Long, 
VectorwithNorm)] = { 
assignments.map { case (index, v) => 
if (divisibleIndices.contains(index)) { 
//leftchildIndex-2*index , rightChildIndex-2*index-*1 
val children = Seq(leftChildIndex(index), rightChildInde 
x(index)) 
// 返 回 序 列 中 第 一 个 符合 条 件 的 最 小 的 元 素 
val selected = children.minBy { child => 
KMeans. fastSquaredDistance(newClusterCenters(child), 


) 

} 
// 将 Vv 分 配给 中 心 点 距离 其 最 短 的 灸 
(selected, v) 

} else { 
(index, v) 

E 

J 
} 


重新 分 配 化 之 后 ， 利 用 summarize 方法 重新 计算 中 心 点 以 及 代价 值 。 


e (5) 处 理 变量 值 为 下 次 和 迭代 作 准 备 


// 数 节点 中 簇 的 Index 以 及 包含 的 数据 点 

assignments = indices.zip(vectors) 
inactiveClusters ++= activeClusters 
activeClusters = newClusters 

// PEPE ORE 

numLeafClustersNeeded -= divisibleClusters.size 


流 式 k-means 算法 


当 数 据 是 以 流 的 方式 到 达 的 时 候 ， 我 们 可 能 想 动态 的 估计 〈 estimate ) RA 
的 徐 ， 通 过 新 的 到 达 的 数据 来 更 新 聚 类 。 spark.mllib 支持 流 式 k-means 7& 
类 ， 并 且 可 以 通过 参数 控制 估计 衰减 ( decay ) (或 "健忘 "( forgetfulness ))。 
这 个 算法 使 用 一 般 地 小 批量 更 新 规则 来 更 新 簇 。 


1 流 式 k-means 算法 原理 


对 每 批 新 到 的 数据 ， 我 们 首先 将 点 分 配给 距离 它们 最 近 的 徐 ， 然 后 计算 新 的 数 
据 中 心 ， 最 后 更 新 每 一 个 徐 。 使 用 的 公式 如 下 所 示 : 


cma + x,m, 
i: c (1) 
n,a m, 


Neri = n tm, (2) 


4k Ed) 85 2- AP. > $c(t8 T — ASAP > SISA TT BC 3X I ARE AS AC 
Xo SISTEM SG WAGES PS > SMSA TE 2 WAGE ARE s i y 
新 的 数据 时 ， 把 衰减 因子 alpha 当做 折扣 加 权 应 用 到 当前 的 点 上 ， 用 以 衡量 当前 
TR O89 2X 0 JU RAUS €. ^» 3 alpha 等 于 1 时 ， 所 有 的 批 数据 赋予 相同 的 权重 ， 
当 alpha 等 于 0 时 ， 数 据 中 心 点 完全 通过 当前 数据 确定 。 


衰减 因子 alpha 也 可 以 通过 halflife 参数 联合 时 间 单 元 ( time unit ) 
来 确定 ， 时 间 单 元 可 以 是 一 批 数据 也 可 以 是 一 个 数据 点 。 假 如 数据 从 t 时 刻 到 来 
并 定义 了 halflife Ah > Æ t+h 时 刻 ， 应 用 到 t 时 刻 的 数据 的 折扣 
( discount ) 为 0.5。 


流 式 k-means 算法 的 步骤 如 下 所 示 : 
e (1) 分 配 新 的 数据 点 到 离 其 最 近 的 徐 ; 


e (2) 根据 时 间 单 元 ( time unit ) 计算 折扣 ( discount ) ti» JE DA 
权重 ; 


e (3) 应 用 更 新 规则 ; 


e (4) 应 用 更 新 规则 后 ， 有 些 徐 可 能 消失 了 ， 那 么 切 分 最 大 的 徐 为 两 个 给。 


2 流 式 k-means 算法 源码 分 析 


在 分 步骤 分 析 源 码 之 前 ， 我 们 先 了 解 一 下 StreamingkMeans 参数 表达 的 含 


class StreamingKMeans( 
var k? Int, Z/3x4 X 
var decayFactor: Double, // RAAT 
var timeUnit: String // 时 间 单 元 


在 上 述 定义 中 ，k 表示 我 们 要 聚 类 的 个 数 ， decayFactor Am EAT > 
用 于 计算 折扣 ， timeUnit 表示 时 间 单 元 ， 时 间 单 元 既 可 以 是 一 批 数据 
( StreamingKMeans.BATCHES ) 也 可 以 是 单条 数据 
( StreamingKMeans.POINTS ) ° 


由 于 我 们 处 理 的 是 流 式 数据 ， 所 以 我 们 在 流 式 数据 来 之 前 要 先 初 始 化 模型 。 有 


两 种 初始 化 模型 的 方法 ， 一 种 是 直接 指定 初始 化 中 心 点 及 徐 权 重 ， 一 种 是 随机 初始 
IFSA ARARE. 


/ / BAZAN p ss RARE 
def setInitialCenters(centers: Array[Vector], weights: Array[Do 
uble]): this.type = { 
model - new StreamingKMeansModel(centers, weights) 
this 
} 
/ / F& dud 36 46 vp s A LA BUS 
def setRandomCenters(dim: Int, weight: Double, seed: Long - Uti 
ls.random.nextLong): this.type - ( 
val random - new XORShiftRandom(seed) 
val centers - Array.fill(k)(Vectors.dense(Array.fill(dim)(r 
andom.nextGaussian()))) 
val weights - Array.fill(k)(weight) 
model - new StreamingKMeansModel(centers, weights) 
this 
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心 点 和 权重 ， 调 整 聚 类 情况 。 更 新 过 程 在 update 方法 中 实现 ， 下 面 我 们 分 步骤 分 
析 该 方法 。 


e (1) 分 配 新 到 的 数据 到 离 其 最 近 的 徐 ， 并 计算 更 新 后 的 簇 的 向 量 和 以 及 点 数 


// 选 择 离 数据 点 最 近 的 灸 
val closest = data.map(point => (this.predict(point), (point, 1 
L))) 
def predict(point: Vector): Int = { 
// 返 回 和 给 定点 相隔 最 近 的 中 心 
KMeans.findClosest(clusterCentersWithNorm, new VectorWithNo 
rm(point)). 1 
} 


3k 48 a xe a E a 2a ee a 
// IRIT LAN AN 9) SHUR C 


val mergeContribs: ( 
Lip) = (eal, ny =e 4 


// y += a * x, 向 量 相 加 
BLAS.axpy(1.0, p2._1, p1._1) 


(Pep p22) 


(Vector, Long), (Vector, Long)) => (Vector, 


} 
val pointStats: Array[(Int, (Vector, Long))] = closest 


.aggregateByKey((Vectors.zeros(dim), OL))(mergeContribs, mer 
geContribs) 
.collect() 


gu m———————————ssnme[: e[ 
e (2) 获取 折扣 值 ， 并 用 折扣 值 作用 到 权重 上 


// 折扣 
val discount = timeUnit match { 
case StreamingKMeans.BATCHES => decayFactor 
case StreamingKMeans.POINTS => 
// 所 有 新 增 点 的 数量 和 


val numNewPoints = pointStats.view.map { case (_, (_, n)) 


=> 
n 
}.sum 
// xy 
math.pow(decayFactor, numNewPoints) 
j 


// 将 折扣 应 用 到 权重 上 
//X =a * x 
BLAS.scal(discount, Vectors.dense(clusterWeights) ) 


上 面 的 代码 更 加 时 间 单 元 的 不 同 获得 不 同 的 折扣 值 。 当 时 间 单 元 
为 StreamingKMeans.BATCHES 时 ， 折 扣 就 为 衰减 因子 ; 当时 间 单 元 
为 StreamingKMeans.POINTS 时 ， 折 扣 由 新 增 数 据点 的 个 数 n 和 衰减 因 
F decay 共同 决定 。 折扣 值 为 n 个 decay Ro 


e (3) 实现 更 新 规则 


// 实现 更 新 规则 
pointStats.foreach { case (label, (sum, count)) => 
// 获 取 中 心 点 


val centroid = clusterCenters(label) 


// 更 新 权重 
val updatedweight = clusterWeights(label) + count 
val lambda = count / math.max(updatedWeight, 16-16) 
clusterWeights(label) = updatedWeight 

//X = a * x, ®P (1-lambda) *centroid 

BLAS.scal(i.0 - lambda, centroid) 

// y += a * x» F'centroid +=sum*lambda/count 


BLAS.axpy(lambda / count, sum, centroid) 


上 面 的 代码 对 每 一 个 给 ， 首 先 更 新 徐 的 权重 ， 权 重 值 为 原 有 的 权重 加 上 新 增 数 
据点 的 个 数 。 然 后 计算 lambda ， 通 过 lambda 更 新 中 心 点 。 lambda 为 新 增 数 
据 的 个 数 和 更 新 权重 的 商 。 假设 更 新 之 前 的 中 心 点 为 cl ， 更 新 之 后 的 中 心 点 
为 c2 ， 那 么 c2=(1-lambda)*c1+sum/count ， 其 中 sum/count 为 所 有 点 的 平 
均值 。 


。 (4) 调整 权重 最 小 和 最 大 的 禾 


val weightsWithIndex = clusterWeights.view.zipWithIndex 


// 获 ] 


val 
// 获 
val 
//F\ 
重 为 两 


取 权 重 值 最 小 的 入 





ste Ems a LAORE 
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(maxWeight, largest) = weightsWithIndex.maxBy( . 1) 


(minWeight, smallest) = weightswithIndex.minBy( . 1) 


a 





断 权 重 最 小 的 禾 是 否 过 小 ， 如 果 过 小 ， 就 将 这 两 个 继 重 新 划分 为 两 个 新 的 给 ， 权 


者 的 均值 


if (minWeight < 1e-8 * maxWeight) { 


uster 


logInfo(s"Cluster $smallest is dying. Split the largest cl 
$largest into two.") 
val weight = (maxWeight + minWeight) / 2.0 
clusterweights(largest) = weight 
clusterWeights(smallest) = weight 
val largestClusterCenter = clusterCenters(largest) 
val smallestClusterCenter = clusterCenters(smallest) 
var j = 0 
while (j < dim) { 
val x = largestClusterCenter(j) 
val p = 1e-14 * math.max(math.abs(x), 1.0) 
largestClusterCenter.toBreeze(j) = x + p 
smallestClusterCenter.toBreeze(j) = x - p 
j += 1 


冶 nm A. 
梯度 下 降 算法 
梯度 下 降 ( GD ) 是 最 小 化 风险 函数 、 损 失 有 函数 的 一 种 常用 方法 ， 随 机 梯度 下 
降 和 批量 梯度 下 降 是 两 种 迭代 求解 思路 。 
1 批量 梯度 下 降 算 法 
假设 h(theta) 是 要 拟 合 的 函数 ，J(theta) 是 损失 函数 ， 这 里 theta 是 要 


迭代 求解 的 值 。 这 两 个 函数 的 公式 如 下 ,其 中 m 是 训练 集 的 记录 条 数 ，j 是 参数 
的 个 数 : 


h(8) = x 0, x; 
j=0 


E WM 
1(0) = m 2,0 - he (x))* 


梯度 下 降 法 目的 就 是 求 出 使 损失 有 函数 最 小 时 的 theta 。 批 量 梯度 下 降 的 求解 
思路 如 下 : 


e HAA BRR theta 的 偏 导 ， 得 到 每 个 theta 对 应 的 的 梯度 


6 isu, ag 
MD -iSo -raD 
J i=1 


e 按 每 个 参数 theta 的 梯度 负 方 向 ， 来 更 新 每 个 theta 


m 
1 ! "Tn 
0 = 8 +— > O- ho(x)) 
i-i 


从 上 面 公 式 可 以 看 到 ， 虽 然 它 得 到 的 是 一 个 全 局 最 优 解 ， 但 是 每 迭代 一 步 ( 即 
修改 j 个 theta 参数 中 的 一 个 ) ， 都 要 用 到 训练 集 所 有 的 数据 ， 如 果 m 很 大 ， 
迭代 速度 会 非常 慢 。 


2 随机 梯度 下 降 算 法 


随机 梯度 下 降 是 通过 每 个 样本 来 迭代 更 新 一 次 theta , 它 大 大 加 快 了 和 迭代 速 
度 。 更 新 theta 的 公式 如 下 所 示 。 


No 5 
6; = 6; +i 一 hg(x^))x 


批量 梯度 下 降 会 最 小 化 所 有 训练 样本 的 损 | — 最 终 求解 的 是 全 局 的 最 
优 解 ， 即 求解 的 参数 是 使 得 风险 函数 最 小 。 随 机 梯度 会 最 小 化 pu 样本 的 损失 
函数 ， 虽 然 不 是 每 次 迭代 得 到 的 损 RI Pd 是 大 的 整体 的 
方向 是 向 全 局 最 优 解 的 ， 最 终 的 结果 往往 是 在 全 局 最 优 解 附近 


3 批 随 机 梯度 下 降 算 法 


在 MLlib 中 ， 并 不 是 严格 实现 批量 梯度 下 降 算法 和 随机 梯度 下 降 算 法 ， 而 是 
结合 了 这 两 种 算法 。 即 在 每 次 迭代 中 ， 既 不 是 使 用 所 有 的 样本 ， ee je 
本 ， 而 是 抽样 一 小 批 样本 用 于 计算 。 


k 
im "^ 
8 = 6, + — 0 - he(x*))x! ,k « m 
i=1 


面 分 析 该 算法 的 实现 。 首 先 我 们 看 看 GradientDescent 的 定义 。 


class GradientDescent private[spark] (private var gradient: Grad 
ient, private var updater: Updater) 
extends Optimizer with Logging 


这 里 Gradient 类 用 于 计算 给 定数 据点 的 损失 有 函数 的 梯度 。 Gradient 类 用 
于 实现 参数 的 更 新 ， 即 上 文中 的 theta 。 梯 度 下 降 算 法 的 具体 实现 
在 runMiniBatchSGD 中 。 


def runMiniBatchSGD( 
data: RDD[(Double, Vector)], 
gradient: Gradient, 
updater: Updater, 
stepSize: Double, 
numIterations: Int, 
regParam: Double, 
miniBatchFraction: Double, 
initialWweights: Vector, 
convergenceTol: Double): (Vector, Array[Double]) 


这 里 stepSize 是 更 新 时 的 步 长 ， regParam 表示 归 一 化 参 
数 ， miniBatchFraction 表示 采样 比例 。 迁 代 内 部 的 处 理 分 为 两 步 。 


e 1 采样 并 计算 梯度 


val (gradientSum, lossSum, miniBatchSize) = data.sample(false, m 
iniBatchFraction, 42 + 工 ) 
.treeAggregate((BDV.zeros[Double](n), 0.0, OL))( 
seqop = (c, v) => { 
// G: (grad, loss, count), v: (label, features) 
val 1 = gradient.compute(v._2, v._1, bcWeights.value 
, Vectors.fromBreeze(c. 1)) 


(c. d Ca- 2 i Cans ESL) 


ty 
combOp = (c1, c2) => { 

Hi SC (rebl; OS S MEC OE) 

(Cid £562.51, 61.052 062.2, Cila e 5 029) 
}) 


这 里 treeAggregate AMT aggregate 方法 ， 不 同 的 是 在 每 个 分 区 ， 该 函 
数 会 做 两 次 (默认 两 次 ) 或 两 次 以 上 的 merge 聚合 操作 ， 避 免 将 所 有 的 局 部 值 传 
€ driver 端 。 


该 步 按照 上 文 提 到 的 偏 导 公 式 求 参数 的 梯度 ， 但 是 根据 提供 的 h 函数 的 不 
同 ， 计 算 结 果 会 有 所 不 同 。 MLlib 现在 提供 的 求 导 方法 分 别 
有 HingeGradient 、 LeastSquaresGradient 、 LogisticGradient 以 及 
ANNGradient 。 这 些 类 的 实现 会 在 具体 的 算法 中 介绍 。 


o 2 更 新 权重 参数 


val update = updater.compute( 


weights, Vectors.fromBreeze(gradientSum / miniBatchSiz 
e.toDouble), 

stepSize, i, regParam) 
weights = update. 1 
regVal = update. 2 


求 出 梯度 之 后 ， 我 们 就 可 以 根据 梯度 的 值 更 新 现 有 的 权重 参数 。 ML1ib 现在 
提供 的 Updater 主要 


有 SquaredL2Updater ^ LiUpdater ^ SimpleUpdater 等 。 这 些 类 的 实现 会 
在 具体 的 算法 中 介绍 。 


"n 


【1】 随 机 梯度 下 降 和 批量 梯度 下 降 的 公式 对 比 、 实 现 对 比 


L-BFGS 


1 牛顿 法 


设 f(x) 是 二 次 可 微 实 函数 ， 又 设 $xAf{(k)}$ 是 F(x) 一 个 极 小 点 的 估计 ， 我 们 
把 f(x) 在 $xA{(k)}9 处 展开 成 Taylor 级 数 ， 并 取 二 阶 近似 。 


f(x) © p(x) = f(x) + vt(x ))T(x — x*) +5 (x — x €T y?£(x0?)(x — x) 


上 式 中 最 后 一 项 的 中 间 部 分 表示 f(x) 在 $x^{(k)}$ 处 的 Hesse H » xp E X 
求 导 并 令 其 等 于 0， 可 以 的 到 下 式 : 


vix) m V? f(x (x gms x) =o 


it Hesse AERE Tif ^ d EACTUXT ED TEM EXAM N T (1.1) 


y *0 — y) — V2f(x?)-1vi(x 9) 


值得 注意 ， 当 初始 点 远离 极 小 点 时 ， 牛 顿 法 可 能 不 收 贫 。 原 因 之 一 是 牛顿 方 
向 不 一 定 是 下 降 方 向 ， 经 和 迭代 ， 目 标 函 数 可 能 上 升 。 此 外 ， 即 使 目标 函数 下 降 ， 得 
到 的 点 也 不 一 定 是 沿 牛 顿 方 向 最 好 的 点 或 极 小 点 。 因此 ， 我 们 在 牛顿 方向 上 增加 一 
维 搜索 ， 提 出 阻尼 牛顿 法 。 其 迭代 公式 是 (1.2) : 


X (1) 2 y) 十 和 do， 
d^ = —V7(x®)-1 V(x) 


其 中 ， lambda 是 由 一 维 搜索 (参考 文献 【1】 了 解 一 维 搜索 ) 得 到 的 步 长 ， 
即 满足 


f(x T3 A, d9?) — min f(x g Ad?) 


2 拟 牛 顿 法 


2.1 拟 和 牛顿 条 件 


前 面 介 绍 了 牛顿 法 ， 它 的 突出 优点 是 收敛 很 快 ， 但 是 运用 牛顿 法 需要 计算 二 阶 
偏 导 数 ， 而 且 目 标 函 数 的 Hesse 矩阵 可 能 非 正 定 。 为 了 克服 牛顿 法 的 缺点 ， 人 们 
提出 了 拟 牛 顿 法 ， 它 的 基本 思想 是 用 不 包含 二 阶 导 数 的 矩阵 近似 牛顿 法 中 
的 Hesse #2 842M o 由 于 构造 近似 矩阵 的 方法 不 同 ， 因而 出 现 不 同 的 拟 牛 顿 
法 。 


(1.2) 已 经 给 出 了 牛顿 法 的 迭代 公式 ， 为 了 构造 Hesse 矩阵 逆 和 矩阵 的 近似 矩阵 
$H ((k)$ ， 需 要 先 分 析 该 逆 矩 阵 与 一 阶 导 数 的 关系 。 


设 在 第 k KERZE > FEISS ， 我 们 将 目标 函数 F(x) 在 点 
$x^{(K+1)}$ 展 开 成 Taylor 级 数 ， 并 取 二 阶 近 似 ， 得 到 


1 
f(x) « f(x&*») di Vf(x V*2)7(x a x*) d 3 - x € *12)T y? (x00) (x E: x(*2) 


由 此 可 知 ， 在 $xA{(k+1)}$ 附 近 有 ， 
Vf(x) © Vf(x +1)) 十 V?f(x**») (x— x+) 
Vi(x®) AN vf(x **») Ly? f(x +D) (x 09 = x k+4)) 
记 


p™® = x(k+1)_ y) 
q*) sind Vi(x +2) = Vi(x™) 


则 有 


q® ny V2 f(x K+ yn) 


又 设 Hesse ETH > MAERT ATEN ° 


p® x V2 f(x **2)-1409 


HO TTR p 和 q 之 后 ， 就 可 以 通过 上 面 的 式 子 估计 Hesse 4E T4 4) ik 4E 
阵 。 因 此 ， 为 了 用 不 包含 二 阶 导 数 的 矩阵 $H(k+T1)18 取 代 和 牛顿 法 中 Hesse EEA 
FETE A83 AS SH{(k+1)} $i ZA A(2.1) : 


p? = H,,4q9 
公式 (2.1) 称 为 拟 牛 顿 条 件 。 


2.2 秩 1 校 正 


当 Hesse 和 纶 阵 的 逆 和 矩阵 是 对 称 正定 矩阵 时 ， 满 足 拟 牛顿 条 件 的 矩阵 
$ H((k)) $35, È 1À XE Rp GE RAE IE o 49 38 SURE XEAAE P 8 ARKAE ^ SHOSHA 4£ 
意 一 个 n WHE > WHE n 阶 单位 矩阵 I ， 然 后 通过 修正 
SH((k) $95 x SH(k+1)}$ » 4 7 


Hk+1 = Hy + AH, 


秩 1 校正 公式 写 为 如 下 公式 (2.2) 形 式 。 


(p? — H; q^) (p? = H,q9))7 


Hg = Hy 十 
+1 qT (po Z, H,q) 


2.3 DFP 算 法 


著名 的 DEP 方法 是 Davidon 首先 提出 ， 后 来 又 被 Feltcher 和 Powell 改 
进 的 算法 ， 又 称 为 变 尺度 法 。 在 这 种 方法 中 ， 定 义 校正 矩阵 为 公式 (2.3) 


pyr H,q q GOTH 


AH, = > - a 
prq qH, q® 


那么 得 到 的 满足 拟 牛 顿 条 件 的 DEP 公式 如 下 (2.4) 


pO pEIT H, qq OTH, 


Hac EUR pOg  gWTH, q® 


BACH [1] > TA DFP 算法 的 计算 步骤 。 


2.4 BFGS 算 法 


前 面 利 用 拟 牛 顿 条 件 (2.1) 推 导出 了 DEP 公式 (2.4)。 下 面 我 们 用 不 含 二 阶 导 数 
&j4ETESB ((k*-1))93t4. Hesse 算 阵 ， 从 而 给 出 另 一 种 形式 的 拟 牛 顿 条 件 (2.5): 


q” = B, ,, p? 


将 公式 (2. 们 的 HBA B ，p 和 q 互 换 正 好 可 以 得 到 公式 (2.5)。 所 以 我 们 
可 以 得 到 B 的 修正 公式 (2.6): 


qq OT B, p®p TB, 


Bisa = Bk + Orp — pOOTB p 


RARA TÆ B 的 BFGS 修正 公式 ， 也 称 为 DEP 公式 的 对 偶 公 式 。 
设 $B_{(Kk+1)})$ 可 逆 ， 由 公式 (2.1) 以 及 (2.5) 可 以 推出 : 


Hk+1 " Buss 


这 样 可 以 得 到 关于 H 的 BFGS 公式 为 下 面 的 公式 (2.7): 


qT H, a a p qT H, + gj, qp 


BFGS _ QUE eee 
Hy; = Ay + (: * pb gh) | pT gh) put gk) 


这 个 重要 公式 是 由 Broyden , Fletcher , Goldfard 和 Shanno 于 1970 年 
提出 的 ， 所 以 简称 为 BFGS 。 数 值 计 算 经 验 表明 ， 它 比 DEP 公式 还 好 ， 因 此 目前 
得 到 广泛 应 用 。 


2.5 L-BFGS (限制 内 存 BFGS ) 算法 


在 BFGS 算法 中 ， 仍 然 有 缺陷 ， 比 如 当 优 化 问题 规模 很 大 时 ， 短 阵 的 存储 和 计 
算 将 变 得 不 可 行 。 为 了 解决 这 个 问题 ， 就 有 了 L-BFGS 算法 。 L- 
BFGS FP Limited-memory BFGS ° L-BFGS 的 基本 思想 是 只 保存 最 近 的 m GE 
代 信 息 ， 从 而 大 大 减少 数据 的 存储 空间 。 对 照 BFGS ， 重 新 整理 一 下 公式 : 

Sk = Xk — Xk-1 
tx = Vf (Xk) — Vf(xy-1) 
1 

tsi 
Ve = 1 — PrtkSk 


Pr = 


之 前 的 BFGS 算法 有 如 下 公式 (2.8) 


e à 1 2 
Biya = Vi BV, + pisis] 其 中 m = Ws.” V; = I — pitis? 


那么 同样 有 


B; = V7, Bi-1Vi-1 + Pi 一 15i 一 T i 1 
将 该 式 子 带 入 到 公式 (2.8) 中 ， 可 以 推导 出 如 下 公式 
Bi41 = V; B,Vi + pisis; 
=v (V2, Bia Vis 十 Pi-18i-18] 1) V; + pisis? 


7T17T 7 i E : p F A js 
= V; V; aB aVV T V; Di—18i—18; 4V: 十 pisis; 


BASHARA k ， 只 保存 最 近 的 m KAREE RR LGM FAR 
代 m 次 ， 可 以 得 到 如 下 的 公式 (2.9) 


7T TI 0 | TrT rT 
E [V VT HEVE Ve.) 
7T F ^ x F 
十 Pi-m DOS ME ul eae x (Vi-m41-.. Vi-1) 


;T T T 
+ Pi-m+1 (ae ls Si—-m418i. m+1 (Vi- m42-:- .Vi-i) 


+ ove 


> T 
T Pi—18i—15; 


面 迭 代 的 最 终 目的 就 是 找到 k 次 和 迭代 的 可 行 方 向 ， 即 
rk = —B, Vf (Xk) 


为 了 求 可 行 方向 r ， 可 以 使 用 two-loop recursion 算法 来 求 。 该 算法 的 计 
过 程 如 下 ， 算 法 中 出 现 的 y PER PRAY t 


1) IF ITER<M SETINCR=0; ELSE SET INCR=ITER -M 


BOUND = ITER BOUND = M 
2) dpounp 二 SITER 
3) FOR i=(BOUND-1),...,0 
j =i +t incr 
a, = pis qi+1 (STORE oj) (a) 
d; ^ dj. 1 7 GY; (b) 
To = Ho do (c) 
FOR i=0,1,...,(BOUND-1) 
j=itiner 
B; = oj»; ri (d) 
Tit, 7 ri + Sio — Bi) (e) 


算法 L-BFGS 的 步骤 如 下 所 示 。 


Step1: 选 初始 点 Xo， 运 行 误 差 g > 0， 存 储 最 近 m 次 的 迭代 数据 ; 
Step2: k= 0,H) =1,r = Vf(xg): 
Step 3: WR IVf (Xl 大 s， 则 返回 最 优 解 x， 否则 转 入 Step 4; 
Step 4: 计算 本 次 迭代 的 可 行 方向 pk = 一 Tx; 
Step 5: 计算 步 长 wk > 0， 对 下 面 的 式 子 进行 一 维 搜索 

f(x, + ap) = min f(x, + ap, ) 
Step 6: 更 新 权重 x 


Xk+1 = Xk + ADE 
Step 7: WR k 大 于 m， 保 留 最 近 m KRAER, HE (Sk-m tk-m) 
Step 8: 计算 并 保持 
Sk = Xkt1™ Xk 
ty = Vf x4) — Vf (Xk) 
Step 9: 用 two-loop recursion 算法 求 n = B, Vf (x) 
Step 10: k=k+1， 并 转 Step 3 


2.6 OWL-QN 算 法 


2.6.1L1 正则 化 


在 机 器 学 习 算法 中 ， 使 用 损失 函数 作为 最 小 化 误差 ， 而 最 小 化 误差 是 为 了 让 我 
们 的 模型 拟 合 我 们 的 训练 数据 ， 此 时 ， 若 参数 过 分 拟 合 我 们 的 训练 数据 就 会 有 过 拟 
合 的 问题 。 正 则 化 参数 的 目的 就 是 为 了 防止 我 们 的 模型 过 分 拟 合 训练 数据 。 此 时 ， 
我 们 会 在 损失 项 之 后 加 上 正则 化 项 以 约束 模型 中 的 参数 : 
$$J(x) = I(x) + r(x)$$ 

公式 右边 的 第 一 项 是 损失 函数 ， 用 来 衡量 当 训练 出 现 偏差 时 的 损失 ， 可 以 是 任 
BT HYG BH (如 果 是 非 凸 函 数 该 算法 只 保证 找到 局 部 最 优 解 ) 。 第 二 项 是 正则 化 
项 。 用 来 对 模型 空间 进行 限制 ， 从 而 得 到 一 个 更 “简单 "的 模型 。 

根据 对 模型 参数 所 服从 的 概率 分 布 的 假设 的 不 同 ， 常 用 的 正则 化 一 般 有 L2 X 
则 化 (模型 参数 服从 Gaussian JA) ^ L1 正则 化 (模型 参数 服从 Laplace 分 
布 ) 以 及 它们 的 组 合 形式 。 


Li 正则 化 的 形式 如 下 
$$J(x) = I(x) + C ||x||_{1}$3$ 


L2 正则 化 的 形式 如 下 


SSI (x) = (x) + C ||xl|_{2}$$ 


L1 正则 化 和 L2 EMUZAYN—-*+RARRHAT HATA ER > E 
v PAS LAT Fe AEE IE A AR) > Lob > MHRA eRe SAA ERE EY 4TH: 





图 左 侧 是 L2 ERM > GWA L1 正则 。 当 模型 中 只 有 两 个 参数 ， 即 $w_1$ 和 
$w_2$ 时 ，L2 正则 的 约束 空间 是 一 个 圆 ， 而 L1 正则 的 约束 空间 为 一 个 正方 形 ， 
这 样 ， 基 于 L1 正则 的 约束 会 产生 黎 足 解 ， 即 图 中 某 一 维 ($w_29) 为 0。 而 L2 正 
则 只 是 将 参数 约束 在 接近 0 的 很 小 的 区 间 里 ， 而 不 会 正好 为 0( 不 排除 有 0 的 情况 )。 对 
于 L1 正则 产生 的 黎 跤 解 有 很 多 的 好 处 ， 如 可 以 起 到 特征 选择 的 作用 ， 因 为 有 些 维 
的 系数 为 0， 说 明 这 些 维 对 于 模型 的 作用 很 小 。 


这 里 有 一 个 问题 是 ， L1 正则 化 项 不 可 微 ， 所 以 无 法 像 求 L-BFGS 那样 去 
求 。 微 软 提出 了 OWL-QN ( Orthant-Wise Limited-Memory Quasi-Newton ) 算 
法 ， 该 算法 是 基于 L-BFGS 算法 的 可 用 于 求解 L1 正则 的 算法 。 简单 来 讲 ， OWL- 
QN 算法 是 指 假 定 变量 的 象限 确定 的 条 件 下 使 用 L-BFGS 算法 来 更 新 ， 同 时 ， 使 得 
更 新 前 后 变量 在 同一 个 象限 中 (使 用 映射 来 满足 条 件 )。 


2.6.2 OWL-QN 算 法 的 具体 过 程 


e 1 次 微分 


N 
O) 
co 


设 $f:l\rightarrow R$SX—-*+ KREG BM? CLALAMENHARAA o RFP 
BRA LAAT SHY > dp do 16H RSX] e LL? MATEA PTAA 
出 (也 可 以 严格 地 证 明 ) ， 对 于 定义 域 中 的 任何 $x_0$， 我 们 总 可 以 作出 一 条 直 
线 ， 它 通过 点 ($x_09$, $f(x_0)$)， 并 且 要 么 接触 f 的 图 像 ， 要 么 在 它 的 下 方 。 这 条 直 
线 的 斜率 称 为 函数 的 次 导数 。 推 广 到 多 元 函数 就 叫做 次 梯度 。 


vy £X $F:\rightarrow R$ 在 点 $x_0$ 的 次 导数 ， 是 实数 c 使 得 : 
f(x) — f(z0) > e(z — xo) 


对 于 所 有 Ir 内 的 x 。 我 们 可 以 证 明 ， 在 点 $x_0$ 的 次 导数 的 集合 是 一 个 非 空 
闭 区 间 $[a, b]$， 其 中 a 和 b 是 单 侧 极 限 。 


=Ü F(z) — f (Zo) 

a= um —M 
II T — To 

b= lim fx) - f(zo) — f(zo) 
rrj T — To 


它们 一 定 存 在 ， 且 满足 $a \leqslant b$。 所 有 次 导数 的 集合 $[a, b]$ 称 为 函 
HF 在 $x_0$ 的 次 微分 。 


e 2 0E 
利用 次 梯度 的 概念 推广 了 梯度 ， 定 义 了 一 个 符合 上 述 原则 的 伪 梯 度 ， 求 一 维 搜 
索 的 可 行 方向 时 用 伪 梯 度 来 代替 L-BFGS 中 的 梯度 。 


OF f(x) if OF f(x) <0 


0 otherwise, 


oO- f(x) if OF f(x) >0 
oif(x) = 


其 中 





a Co(x;) if x; 40 
9* F(x) = i T 
epe zta) + { +C if z; = 0. 


我 们 要 如 何 理解 这 个 伪 梯 度 呢 ? 对 于 不 是 处 处 可 导 的 凸 函数 ， 可 以 分 为 下 图 所 
示 的 三 种 情况 。 


左 侧 极限 小 于 0 : 





右 侧 极限 大 于 0 : 





其 它 情 况 : 








结合 上 面 的 三 幅 图 表示 的 三 种 情况 以 及 伪 梯 度 函 数 公式 ， 我 们 可 以 知道 ， 伪 梯 
度 函 数 保 证 了 在 $x_0$ 处 取得 的 方向 导数 是 最 小 的 。 


e 3 映射 


有 了 部 数 的 下 降 的 方向 ， 接 下 来 必须 对 变量 的 所 属 象 限 进行 限制 ， 目 的 是 使 得 
更 新 前 后 交 量 在 同一 个 象限 中 ， 定 义 函 数 : $\pi: \mathbb{R}{n} \rightarrow 
\mathbb{R}{n}$ 


(us o f zi dfo(z) —o(yi), 
(3) -1 0 otherwise, 


上 述 函数 $\pi$ 直 观 的 解释 是 若 $x$ 和 $y$ 在 同一 象限 则 取 $x$， 若 两 者 不 在 同一 
象限 中 ， 则 取 0。 


e 4 线 搜索 


上 述 的 映射 是 防止 更 新 后 的 变量 的 坐标 超出 象限 ， 而 对 坐标 进行 的 一 个 约束 ， 
具体 的 约束 的 形式 如 下 : 


其 中 $x^{k} + \alpha p _ 人 fk}$ 是 更 新 公式 ，$\zeta$ 表 示 $x^k$ 所 在 的 象限 ， 
$p^k$ 表 示 伪 梯度 下 降 的 方向 ， 它 们 具体 的 形式 如 下 : 


上 面 的 公式 中 ，$v^k$ 为 负 伪 梯 度 方向 ，$d^k = H_{k}yv^{k}$ 。 


选择 $\alpha$ 的 方式 有 很 多 种 ， 存 OWL-QN 中 ， 使 用 了 backtracking line 
search 的 一 种 变种 。 选 择 常数 $beta, gamma subset (0,1)$， 对 于 
$n=0,1,2,...$， 使 得 $\alpha = \beta^{n}$ 满 足 : 


f (v (z + apf; ES f (x*) — yt [" (2* + ap*: 3 一 r*] 


e 5 算法 流程 


Algorithm 1 OWL-QN 
choose initial point z? 





S<={},¥ < {} 

for k = 0 to Maxlters do 
Compute v* = — o f(x") (1) 
Compute d* « Hyv* using S and Y 
p* « m (d*; v") (2) 
Find z^*! with constrained line search (3) 


if termination condition satisfied then 
Stop and return z^*! 

end if 

Update S with s* = z**1 — a 

Update Y with y* = V£(z**1) — V(x") (4) 


k 





end for 
与 L-BFGS 相 比 ， 步 用 伪 梯 度 代替 梯度 El 三 步 要 求 一 维 搜索 不 跨 象 
es 处 于 同一 象限 ， 第 四 步 要 求 估 计 Hessian 7 


阵 时 依然 使 用 损失 函数 的 梯度 。 


3 源码 解析 


3.1 BreezeLBFGS 


spark Ml 调用 breeze 中 实现 的 BreezeLBFGS 来 解 最 优化 问题 。 


val optimizer = new BreezeLBFGS[BDV[Double]]($(maxIter), 10, $(t 


ol)) 


val states = 
optimizer.iterations(new CachedDiffFunction(costFun), init 


ialWeights.toBreeze.toDenseVector ) 


下 面 重 点 分 析 lbfgs.iterations 的 实现 。 


def iterations(f: DF, init: T): Iterator[State] = { 
val adjustedFun = adjustFunction(f ) 
infiniteIterations(f, initialState(adjustedFun, init)).takeU 


pToWhere(_.converged) 


} 


周 用 infiniteIterations， 其 中 State 是 一 个 样本 类 
def infiniteIterations(f: DF, state: State): Iterator[State] = { 
var failedOnce = false 





val adjustedFun = adjustFunction(f) 

/ / Jc FR AN, 

Iterator.iterate(state) ( state -» try ( 
//1 选择 梯度 下 降 方向 


val dir = chooseDescentDirection(state, adjustedFun) 





//D 41 ese 
//2 WHY RK 


val stepSize = determineStepSize(state, adjustedFun, dir 


//3 更 新 权重 
val x = takeStep(state,dir,stepSize) 


"n. 


//4 利用 CostFun.calculate 计 算 损 失 值 和 梯度 





val (value,grad) = calculateObjective(adjustedFun, x, st 
ate. history) 

val (adjValue,adjGrad) = adjust(x, grad, value) 

val oneOffImprovement = (state.adjustedValue - adjValue) 
/(state.adjustedValue.abs max adjValue.abs max 1E-6 * state.init 
ialAdjVal.abs) 

val history = updateHistory(x,grad,value, adjustedFun, s 
tate) 
&jsfet 


// ELS ERIT, 
//6 ARAM 3 





val newAverage = updateFValWindow(state, adjValue) 
failedOnce - false 
var s = State(x,value,grad,adjValue,adjGrad,state.iter + 
1, state.initialAdjVal, history, newAverage, 0) 
val improvementFailure - (state.fVals.length »- minImpro 
vementWindow && state.fVals.nonEmpty && state.fVals.last » state 
.fVals.head * (i-improvementTol)) 
if(improvementFailure) 
S = s.copy(fVals = IndexedSeq.empty, numImprovementFai 
lures = state.numImprovementFailures + 1) 
S 
) catch ( 
case x: FirstOrderException if !failedOnce -» 
failedOnce - true 
logger.error("Failure! Resetting history: " + x) 
state.copy(history = initialHistory(adjustedFun, state 


-X)) 
case x: FirstOrderException => 
logger.error("Failure again! Giving up and returning. 
Maybe the objective is just poorly behaved?") 
state.copy(searchFailed = true) 








看 上 面 的 代码 注释 ， 它 的 流程 可 以 分 五 步 来 分 析 。 
3.1.1 选择 梯度 下 降 方 向 


protected def chooseDescentDirection(state: State, fn: DiffFunct 
ion[T]):T = { 
state.history * state.grad 


这 里 的 * 是 重 写 的 方法 ， 它 的 实现 如 下 : 


def *(grad: T) = { 

val diag = if(historyLength > 0) { 
val prevStep = memStep.head 
val prevGradStep = memGradDelta.head 
val sy = prevStep dot prevGradStep 
val yy = prevGradStep dot prevGradStep 
if(sy < 0 || sy.isNaN) throw new NaNHistory 
sy/yy 

) else { 
1.0 

} 

val dir = space.copy(grad) 

val as = new Array[Double](m) 

val rho = new Array[Double](m) 

// & — kğ% a 

for(i <- © until historyLength) { 
rho(i) = (memStep(i) dot memGradDelta(i)) 
as(i) = (memStep(i) dot dir)/rho(i) 
if(as(i).isNaN) { 

throw new NaNHistory 

} 
axpy(-as(i), memGradDelta(i), dir) 

} 

dir *= diag 

// & —RXi ya 

for(i <- (historyLength - 1) to 0 by (-1)) { 
val beta - (memGradDelta(i) dot dir)/rho(i) 
axpy(as(i) - beta, memStep(i), dir) 

} 

dir *= -1.0 

dir 


} 


非常 明显 ， 该 方法 就 是 实现 了 上 文 提 到 的 two-loop recursion 算法 。 


3.1.2 计算 步 长 


protected def determineStepSize(state: State, f: DiffFunction[T] 
; dir: T) = { 

val x = state.x 

val grad - state.grad 

val ff - LineSearch.functionFromSearchDirection(f, x, dir) 

val search = new StrongwolfeLineSearch(maxZoomIter = 10, max 
LineSearchIter = 10) // TODO: Need good default values here. 

val alpha - search.minimize(ff, if(state.iter -- 0.0) 1.0/no 
rm(dir) else 1.0) 

if(alpha * norm(grad) « 1E-10) 

throw new StepSizeUnderflow 
alpha 


这 一 步 对 应 L-BFGS 的 步骤 的 Step 5 ， 通 过 一 维 搜索 计算 步 长 。 
3.1.3 更 新 权重 


protected def takeStep(state: State, dir: T, stepSize: Double) = 
state.x + dir * stepSize 


这 一 步 对 应 L-BFGS 的 步骤 的 Step 5 ， 更 新 权重 。 
3.1.4 计算 损失 值 和 梯度 


protected def calculateObjective(f: DF, x: T, history: History) 
(Double, T) = { 
f.calculate(x) 


这 一 步 对 应 L-BFGS 的 步骤 的 Step 7 ， 使 用 传人 
的 CostFun.calculate 方法 计算 梯度 和 损失 值 。 并 计算 出 s det 


3.1.5 计算 s 和 t， 并 更 新 history 


/ / Jap 算 S 和 t 
protected def updateHistory(newX: T, newGrad: T, newVal: Double, 
f: DiffFunction[T], oldState: State): History - ( 
oldState.history.updated(newX - oldState.x, newGrad :- oldSt 
ate.grad) 


} 
// 添 加 新 的 S 和 t， 并 删除 过 期 的 S 和 ft 
protected def updateFValWindow(oldState: State, newAdjVal: Double 
):IndexedSeq[Double] = { 
val interm = oldState.fVals :+ newAdjVal 
if(interm.length > minImprovementWindow) interm.drop(1) 
else interm 


[| TEE 


3.2 BreezeOWLQN 


BreezeOWLQN 的 实现 与 BreezeLBFGS 的 实现 主要 有 下 面 一 些 不 同 点 。 


3.2.1 选择 梯度 下 降 方 向 


override protected def chooseDescentDirection(state: State, fn: 
DiffFunction[T]) = { 

val descentDir = super.chooseDescentDirection(state.copy(gra 
d = state.adjustedGradient), fn) 


// The original paper requires that the descent direction be 
corrected to be 

// in the same directional (within the same hypercube) as th 
e adjusted gradient for proof. 

// Although this doesn't seem to affect the outcome that muc 
h in most of cases, there are some cases 

// where the algorithm won't converge (confirmed with the au 
thor, Galen Andrew). 

val correctedDir = space.zipMapValues.map(descentDir, state. 
adjustedGradient, { case (d, g) => if (d * g < 0) d else 0.0 }) 


correctedDir 


此 处 调用 了 BreezeLBFGS 的 chooseDescentDirection 方法 选择 梯度 下 降 
的 方向 ， 然 后 调整 该 下 降 方向 为 正确 的 方向 〈 方 向 必须 一 致 ) 。 


3.2.2 计算 步 长 $\alpha$ 


override protected def determineStepSize(state: State, f: DiffFu 
nction[T], dir: T) = { 
val iter = state.iter 


val normGradInDir = { 
val possibleNorm = dir dot state.grad 
possibleNorm 
} 
val ff = new DiffFunction[Double] { 
def calculate(alpha: Double) = { 
val newX = takeStep(state, dir, alpha) 
val (v, newG) = f.calculate(newX) // 计算 梯度 
val (adjv, adjgrad) = adjust(newX, newG, v) // 3B EA 
adjv -» (adjgrad dot dir) 


j 


val search = new BacktrackingLineSearch(state.value, shrinkS 
tep- if(iter « 1) 0.1 else 0.5) 

val alpha = search.minimize(ff, if(iter < 1) .5/norm(state.g 
rad) else 1.0) 


alpha 


takestep 方法 用 于 更 新 参数 。 


// projects x to be on the same orthant as y 
// this basically requires that x'_i = x i if sign(x i) == sig 
n(y i), and 0 otherwise. 


override protected def takeStep(state: State, dir: T, stepSize 
Double) - ( 

val stepped = state.x + dir * stepSize 

val orthant - computeOrthant(state.x, state.adjustedGradient 


space.zipMapValues.map(stepped, orthant, ( case (v, ov) -» 
v * I(math.signum(v) -- math.signum(ov)) 


;) 


calculate 方法 用 于 计算 梯度 ， adjust 方法 用 于 调整 梯度 。 


// Adds in the regularization stuff to the gradient 
override protected def adjust(newX: T, newGrad: T, newVal: Dou 
ble): (Double, T) = { 
var adjValue = newVal 
val res = space.zipMapKeyValues.mapActive(newX, newGrad, {ca 
se (i, xv, v) => 
val liregValue = li1reg(i) 
require(liregValue >= 0.0) 


if(liregValue == 0.0) { 
V 
) else { 
adjValue += Math.abs(liregValue * xv) 
xv match ( 
case 0.0 => ( 
val delta + = v + liregValue  // 计 算 左 导数 
val delta - = v - liregValue //tt# 53 X 
if (delta - > 0) delta - else if (delta + < 0) delta 
_+ else 0.0 


} 
case _ => v + math.signum(xv) * líregValue 
} 
} 
}) 
adjValue -> res 


> 
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非 负 最 小 二 乘 
spark 中 的 非 负 正则 化 最 小 二 乘法 并 不 是 wiki 中 介绍 的 NNLS 的 实现 ， 而 


是 做 了 相应 的 优化 。 它 使 用 改进 投影 梯度 法 结合 共 斩 梯 度 法 来 求解 非 负 最 小 二 乘 。 
在 介绍 spark 的 源码 之 前 ， 我 们 要 先 了 解 什 么 是 最 小 二 乘法 以 及 共 苑 梯度 法 。 


1 取 小 二 乘法 


1.1 RDR E 


在 某 些 最 优化 问题 中 ， 目 标 函数 由 若干 个 函数 的 平方 和 构成 ， 它 的 一 般 形 式 如 
下 所 示 : 


FG) = 5 f2@), (1.1) 
i=1 
其 中 x= (x1,x2,..,Xn) ， 一 般 假 设 m>=n 。 把 极 小 化 这 类 函数 的 问题 称 为 
最 小 三 乘 问 题 。 


min F(x) = ? £0. (1.2) 


i=1 


SRSA x 的 线性 函数 时 ， 称 (1.2) 为 线性 最 小 二 乘 问题 ， 当 $A} 
(XSA x 的 非 线 性 函数 时 ， 称 (1.2) 为 非 线性 最 小 二 乘 问题 。 


1.2 线性 最 小 二 乘 问题 
在 公式 (1.1) 中 ， 假 设 


f@=piveh ; Le le (1.3) 


其 中 ，p 是 n 维 列 向 量 ， bi 是 实数 ， 这 样 我 们 可 以 用 矩阵 的 形式 表示 
(1.1) Hee 





Ac m* n ZETE * b 是 m 维 列 向 量 。 则 


fi(x) 


FO) = X4 fi 09 = (660. AO), fu 2) | | = (Ax — b)” (Ax — b) 


fm) 
= xT AT Ax — 2b" Ax + bb (1.4) 


AA F(x) ZAH > Ast (14) 求 导 可 以 得 到 全 局 极 小 值 ， 令 其 导数 为 0， 
我 们 可 以 得 到 这 个 极 小 值 。 


VF(x) = 2474x — 247b = 0 
= AlAx =A'b (1.5) 


假设 A 为 满 秩 ，$A^T}A$ 为 n 阶 对 称 正定 矩阵 ， 我 们 可 以 求 得 x 的 值 为 以 
下 的 形式 : 


x= (AA) AAT b (1.6) 


1.3 非 线性 最 小 二 乘 问题 


假设 在 (1.1) 中 ，$f 信 (x)$ 为 非 线性 函数 ， 且 F(x) 有 连续 偏 导 数 。 由 于 $Ai} 
(x)$ 为 非 线性 函数 ， 所 以 (1.2) 中 的 非 线 性 最 小 二 乘 无 法 套用 (1.6) 中 的 公式 求 
得 。 解 这 类 问题 的 基本 思想 是 ， 通 过 解 一 系列 线性 最 小 二 乘 问 题 求 非 线性 最 小 二 乘 
问题 的 解 。 设 $x^{(k)}$ 是 解 的 第 k 次 近似 。 在 $x^{(k)}$ 时 ， 将 函数 $f_ 们 (x)$ 线 性 
化 ， 从 而 将 非 线性 最 小 二 乘 转换 为 线性 最 小 二 乘 问题 ， 用 (1.6) 中 的 公式 求解 极 
小 点 $xX^{(Kk+1)}$ ， 把 它 作 为 非 线性 最 小 二 乘 问题 解 的 第 k+1 次 近似 。 然 后 再 从 
$x^{(k+1)}$ 出 发 ， 继 续 和 迭代 。 下 面 将 来 推导 迭代 公式 。 令 


gil) = f(x?) + VAM — x) 


= Vf. (x()"x 一 [Vf (x)? 09 - fí(x€*)] ,i=1,2,..,m (1.7) 


上 式 右 端 是 $f_ 们 (Xx)$ 在 $x^{(K)}$ 处 展开 的 一 阶 泰勒 级 数 多 项 式 。 令 


06) =) efG) (1.8) 


用 e(x) 近似 F(x) ， 从 而 用 g(x) 的 极 小 点 作为 目标 函数 F(x) 的 极 小 点 
的 估计 。 现 在 求解 线性 最 小 二 乘 问题 


min (x) (1.9) 


把 (1.9) 写成 


O(x) = (Axx — b)” (Ax — b) (1.10) 


在 公式 (1.10) 中 ， 








i GR" Ax, U Oxn 
of (x9) — af. x09) 


Qu, - Ox 


1 GY 








n (x9) ofi (x?) 


- = A, x — f 


| VATA — f (x09) 


Vf, 09709 — f, (09) 





将 $A_{k}$ 和 b 带 入 公式 (1.5) 中 ， 可 以 得 到 ， 


AT A, (x — x) = -Af O (1.11) 


如 果 $AUG8 为 列 满 秩 ， 且 8A{kjA{TJA_{kj$ 是 对 称 正定 和 矩阵， 那么 由 (1.11) 可 
以 得 到 x 的 极 小 值 。 


XD n AT A (1.12) 


TVAE B SOAIGINTIAKISS B te HAL F(x) 在 $xA{(k)}$ 处 的 梯度 ， 
S2ALKINTJA{K}$ HHA g(x) FRE o PLA. (1.12) 又 可 以 写 为 如 下 形式 。 


RD) = X00 Hp IVF) (1.13) 


公式 (1.13) 称 为 Gauss-Newton AÑ ° WE 


d®) = AA ALS © (1.14) 


称 为 点 $x^{(k)}$ 处 的 Gauss-Newton 方向 。 为 保证 每 次 迭代 能 使 目标 函数 值 下 
降 (至 少 不 能 上 升 )， 在 求 出 $d^{(k)}$ 后 ， 不 直接 使 用 $x^{(K)}+d^{(K)}$ 作 为 k+1 次 
近似 ， 而 是 从 $x^{(K)}$ 出 发 ， 洛 $d^{(K)}$ 方 向 进行 一 维 搜索 。 


ming F(x + Ad) (1.15) 


求 出 步 长 $lambda ^(K))$.6 » 4 


XKtD = 409 — 1400 (1.16) 


最 小 二 乘 的 计算 步骤 如 下 : 
。 (1) 给 定 初始 点 $xA{(1)}$， 人 允许 误差 |>0> k=1 
e (2) HH BASE (x) > FFI ESI (KS > ATE Feds o RE 
到 m*n 4ETE SA((K))9 
e (3) Tm (1.14) RF Gauss-Newton 7 (*$d^(k))$ 


。 (4) 从 $xM(k)}$ 出 发 ， 沿 着 $d^(k))$ 作 一 维 搜索 ， 求 出 步 长 $lambda ^(K))$ 
> 3EZ-Sx^(Kc-1))-x(K))- lambda d^(k)]$ 
。 (5) 3ESIx^(Ke1))-x^(k))e-epsilong?ae sk AX » RY x ， 知 
则 ， k=k+1 ， 返 回 步骤 (2) 
在 某 些 情况 下 ， 矩 阵 $AAfTJA$ 是 奇异 的 ， 这 种 情况 下 ， 我 们 无 法 求 出 它 的 逆 矩 
阵 ， 因 此 我 们 需要 对 其 进行 修改 。 用 到 的 基本 技巧 是 将 一 个 正定 对 角 短 阵 添 加 到 
$A^T}A$ 上 ， 改 变 原 来 矩阵 的 特征 值 结 构 ， 使 其 变 成 条 件 较 好 的 对 称 正定 矩阵 。 
典型 的 算法 是 Marquardt 。 


d® = —(AT A, + a DHA f (9 (1.17) 


其 中 ， 工 是 n 阶 单位 矩阵 ， alpha 是 一 个 正 实数 。 当 alpha AON > 
$d^A{(k)}$ 就 是 Gauss-Newton 4 alpha È see ， 这 时 $d 人 ^{(k)}$ 接 
近 F(x) 在 $x^{(k)}$ 处 的 最 速 下 降 方 向 。 算 法 的 具体 过 程 见 参 考 文献 【1】。 


2 Heth EK 


2.1 24677 A 


dV RR SUME RET Do RANE LAMM A J3tUE ZA] Tang LOT 


ax 
p 


定义 2.1 设 A 是 n*n 对 称 正定 矩阵 ， 若 两 个 方向 $d^{(1)}$ 和 $d^{(2)}$ 满 足 


dT Ad = 0 (2.1) 


则 称 这 两 个 方向 关于 A Hi o X$d^(1)nd^(2))...,dM())S2 k 个 方向 ， 它 们 两 
两 关于 A 共 力 ， 则 称 这 组 方向 是 关于 A Hmh © Bp 


d©T Ad® = 0,i + j;i,j = 1,...,k (2.2) 


在 上 述 定 义 中 ， 如 果 A 是 单位 矩阵 ， 那 么 两 个 方向 关于 A t 8&RAT PDT A AE 
交 。 如 果 A 是 一 般 的 对 称 正 定 和 矩阵 ，$d^{(D)) 与 $d^{())$ 共 力 ， 就 是 $d^ 人 {(D)1 与 
$Ad^{()}$ 正 交 。 共 力 方 向 有 一 些 重要 的 性 质 。 


定理 2.1 设 A 是 n 阶 对 称 正定 矩阵 ， 


Ae 
定理 2.2 (扩张 子 空间 定理 ) RA BR 


1 
f(x) = Fx Ax T bxc 


其 中 ，A 是 n BOSE ARTE > $a^(1)d^(2)),...,dA(K))$ k 个 A 的 共 
MERKE ^ VALE SEU Sx (1))92] 3036 A > i $d^((1),d^(2))....,d(K))$3t £1 — 
HEIR de > AE 8ISx (2) x(3)),...,x^(K*1))$ > PISd^(IcH1)) $4 RTE A 
$x^{(1)}+H_{k}$ 上 的 唯一 极 小 点 ， 特 别 的 ， 当 k=n 时 ，$x^{(n+1}$ 是 函数 f(x) 的 
唯一 极 小 点 。 其 中 ， 

k 
pE X ad, a, € (一 oo +00) 


i=1 


Hy = 4x 








A $d^((1)),0((2))....,d ^(Kk))$ A RKI F TRI o 


这 两 个 定理 在 文献 【1】 中 有 详细 证 明 。 


M He E E 


JE A Eb A 03 XC LR C de A Se E 5 RR TEA AKMAS > FA CF BRA 
RS 3& — 28 3-45 77 > EIE GR 287 o EH UR 0 R B A CAS ARR o 3 IT] 
4s tds] e AK Hy 3S e REA © 


考虑 问题 


1 
min f(x) = jx Ax 十 DTx +c (2.3) 


其 中 A CHAE RHR? c 是 常数 。 
有 具体 求解 方式 如 下 


首先 给 定 任何 一 个 初始 点 $xAf(1)}$ ， 计 算 目标 函数 F(x) 在 这 点 的 梯度 
$9/((1)$ > € $lg((1)]|20$. ， 则 停止 计算 ; 否则 令 


de = -vf(x(?) = —g, (2.4) 


沿 方向 $dA((1)}$ 搜 索 ， 得 到 点 $x^((2)}$。 计 算 $x^((2)}$ 处 的 梯度 ， 若 
$/g/(2))|/70$ > HAI A $9((2))$e $d^((1)) $24 3& 9b — 1-48 RA 1$d^(2)$ ^ Ais 
$d^(2))$4& X ° 


一 般 的 ， 若 已 知 $x^{(K)}$ 和 搜索 方向 $d^{(K)}$， 则 从 $x^{(k)))$ 出 发 ， 沿 方向 
$d 人 ^{(k)}$ 搜 索 ， 得 到 


40D = 409 4 1, qUO (2.5) 


其 中 步 长 lambda 满足 


f(x + 1,409) = min f(x + Ad) 


此 时 可 以 求 得 lambda 的 显 式 表达 。 


pa) = f(x? + Akda) 


通过 求 导 可 以 来 上 面 公 式 的 极 小 值 ， 即 


q'O = yf(x(**D)rqU0—0 (2.6) 


根据 二 次 函数 梯度 表达 式 ，(2.6) 式 可 以 推出 如 下 方程 


(AxK+D + bd =0 2 (A(x + A, d®) + b)Td™ = 0 
=> (gy + A, Ad?) dW = 0 (2.7) 


E (2.7) 式 可 以 得 到 


gO 28) 
d WT Aq (GO i 


Àk = 
计算 f(x) 在 $xA{(k+1)}$ 处 的 梯度 ， 若 $|lgtk+T|=08， 则 停止 计算 ， 否则 用 
$g{(k+1)}$ 和 $d^{(k))$ 构 造 下 一 个 搜索 方向 $d^{(K+1)}$ ， 并 使 $d^{(k)}$ 与 
$dA{(k+1)} 共 力 。 按 照 这 种 设想 ， 令 


d&+) = gt Bpd® (2.9) 


在 公式 (2.9) 两 端 同时 乘 以 $d^A{(k)TJA$， 并 令 


dT gg&+1) = dTAg + B,d™TAd™ = 0 (2.10) 


可 以 求 得 


d OOF Aaa 


k = qüorAqOo (2.11) 


再 从 $x^{(Kk+1)}$ 出 发 ， 沿 $d^(K+1)}$ 方 向 搜索 。 综 上 分 析 ， 在 第 1 个 搜索 方向 
取 负 梯度 的 前 提 下 ， 重 复 使 用 公式 (2.5) > (28) ` (2.9) > (2.11) ， 我 们 就 
能 够 构造 一 组 搜索 方 和 向。 当然， 前提 是 这 组 方向 是 关于 A KH o 定理 2.3 说 明了 
这 组 方向 是 共 力 的 。 


定理 2.3 对 于 正定 二 次 函数 (23) 


具有 精确 一 维 搜索 的 的 共 力 梯度 法 
在 m<=n 次 一 维 搜索 后 终止 ， 并 且 对 于 所 有 i(1<=i<=m) 


> 下列 关系 成 立 : 


(1) d AdO =0,(j = 1,2,..,i—1) 
(2) gig; =9,G =1,2,..,i-1) 
(3) gidO =g m (d© # 0) 
ATAA HP ECAK HH BHRMBRAN > KBB AT 


a 


HES betak » 
































定理 2.4 对 于 正定 二 次 函数 ， 共 力 梯 度 法 中 因子 beta k 具有 下 列表 达 式 
lg ii? 
Bx posi Siege fea) 
xTM AAA: Ht RANT Ree FT : 
C) ”给 定 初始 点 x 中 ， 设 k=1; 
(2) ”计算 gx =Vix™), Big, 上 = 0， 则 停止 计算 ， 得 出 极 小 值 点 。 否 则 进行 下 
E, 
(3) ”构造 搜索 方向 ， 令 
d = —gy + Byrd» 
S NEN _N x " — det 
= k=1 Rf, B,_,=0 i k>0 时 ， Br- Mg, l? C 
(4) GED = x0 4 A dO, HERA, = 一 -总 0 计算 步 长 4; 
(5) ken, MAEHE, (GUB. AU k=k+2， 返 回 步 又 (2) 。 
a. 一 ` e» 
3 最 小 二 乘法 在 spark 中 的 具体 实现 


Spark ml 中 解决 最 小 二 乘 可 以 选择 两 种 方式 ， 一 种 是 非 负 正则 化 最 小 二 乘 ， 


一 种 是 乔 里 斯 基 分 解 ( Cholesky ) ° 


f Jt A RE RR 
和 其 本 身 的 乘积 的 分 解 。 
实现 。 
lapack.dppsv("u", 


k, 1, ne.ata, 


ne.atb, k, 


是 把 一 个 对 称 正 定 的 矩阵 表示 成 一 个 上 三 角 短 阵 U SES 
在 ml 代码 中 ， 直 接 调用 netlib-java 封 装 


的 dppsv 方法 


info) 


可 以 深入 dppsv 代码 ( Fortran 代码 ) 了 解 更 深 的 细节 。 我 们 分 析 的 重点 
是 非 负 正则 化 最 小 二 乘 的 实现 ， 因 为 在 某 些 情况 下 ， 方 程 组 的 解 为 负数 是 没有 意义 
的 。 虽 然 方程 组 可 以 得 到 精确 解 ， 但 却 不 能 取 负 值 解 。 在 这 种 情况 下 ， 其 非 负 最 小 
二 乘 解 比 方程 的 精确 解 更 有 意义 。 非 负 最 小 二 乘 问题 要 求解 的 问题 如 下 公式 


min, =xTatax" +xľatb , xz0 (3.1) 


其 中 ata 是 半 正 定 和 矩阵 。 


在 ml 代码 中 ， org.apache.spark.mllib.optimization.NNLS 对 象 实现 
了 非 负 最 小 二 乘 算 法 。 该 算法 结合 了 投影 梯度 算法 和 共 力 梯度 算法 来 求解 。 


首先 介绍 NNLS 对 人 象 中 的 Workspace 类 。 


class Workspace(val n: Int) { 
val scratch = new Array[Double](n) 
val grad = new Array[Double](n) // 投 影 梯度 
val x = new Array[Double](n) 
val dir = new Array[Double](n)  // 搜 索 方向 
val lastDir = new Array[Double](n) 
val res = new Array[Double](n) // 梯 度 


在 Workspace 中 ， res 表示 梯度 ， grad 表示 梯度 的 投影 ， dir 表示 迭代 
过 程 中 的 搜索 方向 ( 共 罗 梯度 中 的 搜索 方向 Bd^{(K))$) > scratch 代表 公式 
(2.8) 中 的 $dM(k)T}AS ° 


NNLS 对 象 中 ， sort 方法 用 来 解 最 小 二 乘 ， 它 通过 和 迭代 求解 极 小 值 。 我 们 
将 分 步骤 剖析 该 方法 。 


e (1) 确定 迭代 次 数 。 


val iterMax = math.max(400, 20 * n) 


e (2) 求 梯度 。 


在 每 次 迭代 内 部 ， 第 一 步 会 求 梯度 res ， 代 码 如 下 


//y <= alpha*A*x + beta*y FP y:=1.0 * ata * x + 0.0 * res 
blas.dgemv( "N", n, n, 1.0, ata, n, x, 1, 0.0. res, 1) 

// ata*x - atb 

blas.daxpy(n, -1.0, atb, 1, res, 1) 


dgemv 方法 的 作用 是 得 到 y := alpha*A*x + beta*y ， 在 本 代码 中 表 
res=ata*x ° daxpy 方法 的 作用 是 得 到 y:=step*x ty ,在 本 代码 中 表 
res=ata*x-atb ， 即 梯度 。 


\ 


- 


\ 


- 


e (3) 来 梯度 的 投影 矩阵 
求 梯度 矩阵 的 投影 矩阵 的 依据 如 下 公式 。 


0 ifx,=0 


"AN i 
plgrad;] NR ms 3.2) 


详细 代码 如 下 所 示 : 


// 转 换 为 投影 矩阵 
i=0 
while (i < n) { 
if (grad(i) > 0.0 && x(i) == 0.0) { 
grad(i) = 0.0 


。 (4) 求 搜索 方向 。 


在 第 一 次 迭代 中 ， 搜 索 方 向 即 为 梯度 方向 。 如 下 面 代 码 所 示 。 


// 在 第 一 次 迭代 中 ， 搜 索 方向 dir 即 为 梯度 方向 
blas.dcopy(n, grad, 1, dir, 1) 


在 第 k 次 近代 中 ， 搜 索 方向 由 梯度 方向 和 前 一 步 的 搜索 方向 共同 确定 ， 计 算 
依赖 的 公式 是 (2.9) o 具体 代码 有 两 行 


val alpha = ngrad / lastNorm 
//alpha*lastDir + dir， 此 时 dir 为 梯度 方向 
blas.daxpy(n, alpha, lastDir, 1, dir, 1) 


此 处 的 alpha 就 是 根据 公式 (2.12) 计算 的 。 
e (5) 计算 步 长 。 


知道 了 搜索 方向 ， 我 们 就 可 以 依据 公式 (2.8) 来 计算 步 长 。 


def steplen(dir: Array[Double], res: Array[Double]): Double = { 
//top =g * d 

val top = blas.ddot(n, dir, 1, res, 1) 
// y := alpha*A*x + beta*y. 
// scratch = d * ata 

blas-dgemv( "N", n, n, 1.0, ata, n, dir, 1, 0.0, scratch, 1) 
//XK (2.8) ， 添 加 1e-20 是 为 了 避免 分 母 为 0 

//g*d/d*ata*d 
top / (blas.ddot(n, scratch, 1, dir, 1) + 1e-20) 


e (6) 调整 步 长 并 修改 迭代 值 。 


因为 解 是 非 负 的 ， 所 以 步 长 需要 做 一 定 的 处 理 ， 如 果 步 长 与 搜索 方向 的 乘积 大 
于 x 的 值 ， 那 么 重 置 步 长 。 重 置 逻辑 如 下 : 


i=0 
while (i < n) { 
if (step * dir(i) > x(i)) 4 
// 如 果 步 长 过 大 ， 那 么 三 者 的 商 替代 
step = x(i) / dir(i) 
} 
2 


zt 


最 后 ， 修 改 x BI ^ AMAKIEK © 


NNLS( 非 负 最 小 二 乘 ) 


i-0 
while (i < n) ( 
// X(I) 趋 向 为 9 
if (step * dar(r) > x(a) * (1 = 1e-14)) { 
x(i) = 0 
lastWall = iterno 
) else { 
x(i) -= step * dir(i) 
} 
i 


=i+d 
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带 权 最 小 二 乘 


1 原理 


给 定 n 个 带 权 的 观察 样本 $(w_i,a_i,b_i)$: 


e $W_i$ 表 示 第 i 个 观察 样本 的 权重 ; 
e $a_i$ 表 示 第 i 个 观察 样本 的 特征 向 量 ; 
e $b_i$ 表 示 第 i 个 观察 样本 的 标签 。 


每 个 观察 样本 的 特征 数 是 m。 我 们 使 用 下 面 的 带 权 最 小 二 乘 公式 作为 目标 子 
He: 


$$minimize{x}\frac{1}{2} sum(i-1^n Mrac(wi(a i^T x -b_i)*2}{\sum{k=1}4n wk} + 
\frac{1}{2}\frac{Vambda}{\delta}\sum{j=1}4m(\sigmafj} x(j))^2$$ 


其 中 $llambda$ 是 正则 化 参数 ，$\delta$ 是 标签 的 总 体 标准 差 ，$\sigma j$ 是 第 j 
个 特征 列 的 总 体 标准 差 。 

这 个 目标 函数 有 一 个 解析 解法 ， 它 仅仅 需要 一 次 处 理 样 本 来 搜集 必要 的 统计 数 
据 去 求解 。 与 原始 数据 集 必须 存储 在 分 布 式 系统 上 不 同 ， 如 果 特 征 数 相对 较 小 ， 这 
些 统计 数据 可 以 加 载 进 单机 的 内 存 中 ， 然 后 在 driver 端 使 用 乔 里 斯 基 分 解 求解 目 
A A d o 

spark ml 中 使 用 weightedLeastSquares 求解 带 权 最 小 二 乘 问 
alo WeightedLeastSquares 仅仅 支持 L2 正则 化 ， 并 且 提 供 了 正则 化 和 标准 化 
的 开关 。 为 了 使 正大 方程 ( normal equation ) 方法 有 效 ， 特 征 数 不 能 超过 
4096。 如 果 超 过 4096， 用 L-BFGS 人 代替。 下面 从 代码 层面 介绍 带 权 最 小 二 乘 优化 
算法 的 实现 。 


2 代码 解析 


我 们 首先 看 看 weightedLeastSquares 的 参数 及 其 含义 。 


private[ml] class WeightedLeastSquares( 

val fitIntercept: Boolean, //% Tik M AJE 

val regParam: Double, //L2 正 则 化 参数 ， 指 上 面 公式 中 的 lambda 

val elasticNetParam: Double, // alpha， 控 制 L1 和 L2 正 则 化 

val standardizeFeatures: Boolean, // 是 否 标准 化 特征 

val standardizeLabel: Boolean, // 是 否 标准 化 标签 

val solverType: WeightedLeastSquares.Solver = WeightedLeastS 
quares.Auto, 

val maxIter: Int = 100, // ikAXX 

val tol: Double - 1e-6) extends Logging with Serializable 


sealed trait Solver 

case object Auto extends Solver 

case object Cholesky extends Solver 
case object QuasiNewton extends Solver 


在 上 面 的 代码 中 ， standardizeFeatures 决定 是 否 标准 化 特征 ， 如 果 为 站 ， 
则 $\sigma_j$ 是 A 第 j 个 特征 列 的 总 体 标准 差 ， 否 则 $l\sigma _j$ 为 1。 
standardizeLabel 决定 是 否 标准 化 标签 ， 如 果 为 夏 ， 则 $delta$ 是 标签 b 的 总 体 
标准 差 ， 否 则 $\delta$ 为 1。 solverrype 指定 求解 的 类 型 ， 
有 Auto ， Cholesky 和 QuasiNewton 三 种 选择 。 tol 表示 和 迭代 的 收敛 阔 
值 ， 仅 仅 在 solverType 为 QuasiNewton 时 可 用 。 


2.1 求解 过 程 


WeightedLeastSquares 接收 一 个 包含 (标签 ， 权 重 ， 特 征 ) 的 RDD ， 使 
用 fit 方法 训练 ， 并 返回 WeightedLeastSquaresModel ° 


def fit(instances: RDD[Instance]): WeightedLeastSquaresModel 
训练 过 程 分 为 下 面 几 步 。 


val summary = instances.treeAggregate(new Aggregator)(_.add(_), 
_.merge(_)) 


使 用 Me 方法 来 统计 样本 信息 。 统 计 的 信息 在 Aggregator 类 中 
给 出 了 定义 。 通 过 展开 上 面 的 目标 函数 ， 我 们 可 以 知道 这 些 统计 信息 的 含义 。 


private class Aggregator extends Serializable ( 
var initialized: Boolean = false 


var k: Int = _ // 特征 数 

var count: Long = _ // KE 

var triK: Int = _ // HA#ERGH LEE 

var wSum: Double = _ // 权重 和 

private var wwSum: Double =_ // 权重 的 平方 和 
private var bsum: Double = _ // 带 权 标签 和 

private var bbsum: Double = _ // 带 权 标签 的 平方 和 
private var aSum: DenseVector = _ // 带 权 特征 和 
private var abSum: DenseVector = _ // 带 权 特 征 标 签 相 乘 和 
private var aaSum: DenseVector = _ // 带 权 特 征 平 方 和 
} 


方法 add 添加 样本 的 统计 信息 ， 方 法 merge 合并 不 同 分 区 的 统计 信息 。 代 
码 很 简单 ， 如 下 所 示 : 


jee 

* Adds an instance. 

ard 

def add(instance: Instance): this.type - ( 

val Instance(l, w, f) - instance 

val ak - f.size 

if (!initialized) { 

init (ak) 

} 

assert(ak == k, s"Dimension mismatch. Expect vectors of si 
ze $k but got $ak.") 

count += 1L 

wSum += w 

wwSum += w * w 

bSum += w * 1 

bbsum += w * 1 * 1 

BLAS.axpy(w, f, aSum) 

BLAS.axpy(w * 1, f, abSum) 

BLAS.spr(w, f, aaSum) // wff^T 


/** 
* Merges another [[Aggregator]]. 
ri 
def merge(other: Aggregator): this.type - ( 
if (!other.initialized) { 
this 
} else { 
if (!initialized) { 
init(other.k) 
} 


assert(k == other.k, s"dimension mismatch: this.k = $k b 
ut other.k = ${other.k}") 


count += other.count 

wSum += other.wSum 

wwSum += other .wwSum 

bSum += other.bSum 

bbSum += other.bbSum 
BLAS.axpy(1.0, other.aSum, aSum) 
BLAS.axpy(1.0, other.abSum, abSum) 
BLAS.axpy(1.0, other.aaSum, aaSum) 
thas 


Aggregator 类 给 出 了 以 下 一 些 统 计 信 息 : 


aBar: 特征 加 权 平 均 数 
bBar: 标签 加 权 平 均 数 
aaBar: 特征 平方 加 权 平 均 数 
bbBar: 标签 平方 加 权 平 均 数 
aStd: 特征 的 加 权 总 体 标 准 差 
bStd: 标签 的 如 权 总 体 标 准 差 
aVar: 带 权 的 特征 总 体 方差 


计算 出 这 些 信息 之 后 ， 将 均值 缩放 到 标准 空间 ， 即 使 每 列 数据 的 方差 为 1。 


// 缩放 bBar 和 bbBar 


val bBar = summary.bBar / bStd 
val bbBar = summary.bbBar / (bStd * bStd) 


val aStd = summary.aStd 
val aStdValues = aStd.values 
// 缩放 aBar 
val aBar = { 
val _aBar = summary.aBar 
val _aBarValues = _aBar.values 
var i = 0 
// scale aBar to standardized space in-place 
while (i < numFeatures) { 
if (aStdValues(i) == 0.0) { 
_aBarValues(i) = 0.0 
} else { 
_aBarValues(i) /= aStdValues(i) 
} 
it+t=1 
} 
_aBar 
} 
val aBarValues = aBar.values 
// 缩放 abBar 
val abBar = { 
val _abBar = summary .abBar 
val _abBarValues = _abBar.values 
var 1 = 0 
// scale abBar to standardized space in-place 
while (i < numFeatures) { 
if (aStdValues(i) == 0.0) { 
_abBarValues(i) = 0.0 
} else { 
_abBarValues(i) /= (aStdValues(i) * bStd) 
} 
it+t=1 
} 
_abBar 
} 
val abBarValues = abBar.values 
// 缩放 aaBar 


val aaBar = { 
val _aaBar = summary.aaBar 


val _aaBarValues = _aaBar.values 
var j = 0 
var p = 0 


// scale aaBar to standardized space in-place 
while (j < numFeatures) { 
val aStdJ = aStdValues(j) 
var 1 = 0 
while (i <= j) { 
val aStdI = aStdValues(i) 
if (aStdJ == 0.0 || aStdI == 0.0) { 
_aaBarValues(p) = 0.0 
) else { 
.aaBarValues(p) /- (aStdI * aStdJ) 


} 
p += 1 
i += 1 
} 
j d 
} 
_aaBar 


} 


val aaBarValues = aaBar.values 


e 2 处 理 L2 正 则 项 


val effectiveRegParam = regParam / bStd 
val effectiveLiRegParam = elasticNetParam * effectiveRegParam 
(1.0 - elasticNetParam) * effectiveReg 


val effectiveL2RegParam 
Param 


var i = 0 
var j = 2 
while (i < trik) { 
var lambda = effectiveL2RegParam 
if (!standardizeFeatures) { 
val std = aStdValues(j - 2) 
if (std != 0.0) { 
lambda /= (std * std) // 正 则 项 标准 化 
} else { 
lambda = 0.0 


} 
if (!standardizeLabel) { 


lambda *= bStd 


j 

aaBarValues(i) += lambda 
TL 

ML 


e 3 选择 solver 


WeightedLeastSquares 实现 
了 CholeskySolver 和 QuasiNewtonSolver 两 种 不 同 的 求解 方法 。 当 没有 正则 
化 项 时 ， 选 择 CholeskySolver 求解 ， 否则 用 QuasiNewtonSolver 求解 。 


val solver = if ((solverType == WeightedLeastSquares.Auto && ela 
sticNetParam != 0.0 && 
regParam != 0.0) || (solverType == WeightedLeastSquares.Qu 
asiNewton)) { 
val effectiveLiRegFun: Option[(Int) => Double] = if (effec 
tiveLiRegParam != 0.0) { 
Some((index: Int) => { 
if (fitIntercept && index == numFeatures) { 
GEO 
) else { 
if (standardizeFeatures) ( 
effectiveLiRegParam 
) else { 
if (aStdValues(index) != 0.0) effectiveliRegPara 
m / aStdValues(index) else 0.0 
} 
} 


}) 
} else { 


None 


} 
new QuasiNewtonSolver(fitIntercept, maxIter, tol, effectiv 
eLiRegFun) 
} else { 
new CholeskySolver 


CholeskySolver 和 QuasiNewtonSolver 的 详细 分 析 会 在 另外 的 专题 进行 
描述 。 


e 4 处 理 结果 


val solution = solver match { 
case cholesky: CholeskySolver => 
BIET 
cholesky.solve(bBar, bbBar, ab, aa, aBar) 
) catch ( 
// if Auto solver is used and Cholesky fails due to si 
ngular AtA, then fall back to 
// Quasi-Newton solver. 
case _: SingularMatrixException if solverType == Weigh 
tedLeastSquares.Auto -» 
logwarning("Cholesky solver failed due to singular c 
ovariance matrix. " + 
"Retrying with Quasi-Newton solver.") 
// ab and aa were modified in place, so reconstruct 
them 
val aa = getAtA(aaBarValues, aBarValues) 
val ab = getAtB(abBarValues, bBar) 
val newSolver - new QuasiNewtonSolver(fitIntercept, 
maxlIter, tol, None) 
newSolver.solve(bBar, bbBar, (ab, aa, aBar) 
} 
case qn: QuasiNewtonSolver => 
qn.solve(bBar, bbBar, ab, aa, aBar) 


val (coefficientArray, intercept) = if (fitIntercept) { 
(solution.coefficients.slice(0, solution.coefficients.leng 
Iell = e 
solution.coefficients.last * bStd) 
} else { 
(solution.coefficients, 0.0) 


上 面 代 码 的 异常 处 理 需 要 注意 一 下 。 在 AtA CHENILLE > HERR 
分 解 会 报错 ， 这 时 需要 用 拟 牛 顿 方法 求解 。 


以 上 的 结果 是 在 标准 空间 中 ， 所 以 我 们 需要 将 结果 从 标准 空间 转换 到 原来 的 空 
间 。 


// convert the coefficients from the scaled space to the origina 
1 space 
var q = 0 
val len = coefficientArray.length 
while (q < len) { 

coefficientArray(q) *= { if (aStdValues(q) != 0.0) bStd / aSt 
dValues(q) else 0.0 } 

q += 1 


奇 开 值 分 解 


1 奇异 值 分 解 


TET PRISE DIR ZUG > Ree > EE 和 A 不 一 定 是 方 阵 。 为 了 得 到 方 阵 ， 
可 以 将 矩阵 A 的 转 置 乘 以 该 矩阵 。 从 而 可 以 得 到 公式 : 


(ATA)v = Av 


现在 假设 存在 MN EK A ， 我 们 的 目标 是 在 n 维 空间 中 找 一 组 正 交 基 ， 使 
得 经 过 A 变换 后 还 是 正 交 的 。 假 设 已 经 找到 这 样 一 组 正 交 基 : 


LUN INS | 


A 矩阵 可 以 将 这 组 正则 基 上 映射 为 如 下 的 形式 。 


{Av,,AV3,..., Av] 
1 2 n 


要 使 上 面 的 基 也 为 正则 基 ， 即 使 它们 两 两 正 交 ， 那 么 需要 满足 下 面 的 条 件 。 
Av;. Av; = (Av;)' Av; = v A Av; = 0 
如 果 正 交 基 v 选择 为 $A^{T}A$ 的 特征 向 量 的 话 ， 由 于 $A^{T}A$ 是 对 称 
RR v 之 间 两 两 正 交 ， 那 么 


T AT —4T = T V = 
v; A Av; = Vj Àjvj = AV; Vj =À viv = 0 


由 于 下 面 的 公式 成 立 


|Av, |? = Av;. AV; — A,V;. Vi = A; 之 0 


所 以 取 单 位 向 量 


AV; 1 " 
|Av,| Ji: i 





Ui 


可 以 得 到 


1 
Av, = oiu, R PAF Bo, = JA 


奇异 值 分 解 是 一 个 能 适用 于 任意 的 矩阵 的 一 种 分 解 的 方法 ， 它 的 形式 如 下 : 


A = UZV” 


HP> u 是 一 个 M*M 的 方 阵 ， 它 包含 的 向 量 是 正 交 的 ， 称 为 左 奇异 向 量 (PP 
上 文 的 u ) 。 sigma 是 一 个 N*M 的 对 角 和 矩阵 ， 每 个 对 角 线 上 的 元 素 就 是 一 个 奇 
弄 值 。V 是 一 个 N*N 的 和 矩阵， 它 包 含 的 向 量 是 正 交 的 ， 称 为 右 奇 弄 向 量 (PEX 
ay) œ 


2 源码 分 析 


MLlib 在 RowMatrix 类 中 实现 了 奇异 值 分 解 。 下 面 是 一 个 使 用 奇异 值 分 解 
的 例子 。 


import org.apache.spark.mllib.linalg.Matrix 

import org.apache.spark.mllib.linalg.distributed.RowMatrix 
import org.apache.spark.mllib.linalg.SingularValueDecomposition 
val mat: RowMatrix - ... 

// Compute the top 20 singular values and corresponding singular 
VOCI OS 

val svd: SingularValueDecomposition[RowMatrix, Matrix] - mat.com 
puteSVD(20, computeU = true) 

val U: RowMatrix = svd.U // The U factor is a RowMatrix. 

val s: Vector = svd.s // The singular values are stored in a loc 
al dense vector. 

val V: Matrix = svd.V // The V factor is a local dense matrix. 


2.1 性 能 


我 们 假设 n 比 m 小 。 奇 异 值 和 右 奇 异 值 向 量 可 以 通过 方 阵 $A^{T}A$ 的 特征 值 
和 特征 向 量 得 到 。 左 奇异 向 量 通过 $AVS^{-1)$ 求 得 。 ml 实际 使 用 的 方法 方法 依 
赖 计算 花费 。 


e XS n 很 小 ( n<100 ) 或 者 k Hen 大 ( k>n/2 )， 我 们 会 首先 计算 方 阵 
SANTIA$ ， 然 后 在 driver 本 地 计算 它 的 top 特征 值 和 特征 向 量 。 它 的 空 
间 复 杂 度 是 0(n*n) ， 时 间 复 杂 度 是 O(n*n*k) 。 


e 否则 ， 我 们 用 分 布 式 的 方式 先 计算 $A^{T}Av$, 然 后 把 它 传 给 ARPACK 
在 driver 上 计算 top 特征 值 和 特征 向 量 。 它 需要 传递 0(k) 的 数据 ， 每 


个 executor 的 空间 复杂 度 是 O(n) , driver 的 空间 复杂 度 是 O(nk) 
2.2 代码 实现 


def computeSvD( 

K: Int, 

computeU: Boolean = false, 

rCond: Double = ie-9): SingularValueDecomposition[RowMatrix 
, Matrix] = { 


// RANK 
val maxIter = math.max(300, k * 3) 
// '\ 48 


val tol = 1e-10 
computeSVD(k, computeU, rCond, maxIter, tol, "auto") 
BOO TRU 


computeSVD(k, computeU, rCond, maxIter, tol, "auto") 的 实现 分 为 
步 。 分 别 是 选择 计算 模式 ，$A4A{T}A$ 的 特征 值 分 解 ， 计 算 v QU , Sigma ° 下 


val computeMode = mode match { 
case "auto" => 
if (k > 5000) { 
logWarning(s"computing svd with k=$k and n-$n, please 
check necessity") 
} 
if (n < 100 || (k> n / 2 && n <= 15000)) { 
// 满足 上 述 条 件 ， 首 先 计算 方 阵 ， 然 后 本 地 计算 特征 值 ， 避免 数据 传递 
(Kn 
SVDMode .LocalARPACK 
} else { 
SVDMode.LocalLAPACK 
} 
) else { 
// 分 布 式 实现 
SVDMode .DistARPACK 
} 
case "local-svd" => SVDMode.LocalLAPACK 
case "local-eigs" => SVDMode.LocalARPACK 
case "dist-eigs" => SVDMode.DistARPACK 


e 2 特征 值 分 解 


val (sigmaSquares: BDV[Double], u: BDM[Double]) = computeMode m 
atch ( 
case SVDMode.LocalARPACK -» 


val G - computeGramianMatrix().toBreeze.asInstanceOf[BDM[ 
Double] ] 
EigenValueDecomposition.symmetricEigs(v => G * v, n, k, 
tol, maxIter) 
case SVDMode.LocalLAPACK -» 
// breeze (v0.10) svd latent constraint, 7 * n*n*4 * 
n « Int.MaxValue 
val G - computeGramianMatrix().toBreeze.asInstanceOf[BDM[ 
Double] ] 
val brzSvd.SVD(uFull: BDM[Double], sigmaSquaresFull: BDV[ 
Double], _) = brzSvd(G) 
(sigmaSquaresFull, uFull) 
case SVDMode.DistARPACK => 
if (rows.getStorageLevel == StorageLevel.NONE) { 
logWarning("The input data is not directly cached, whi 
ch may hurt performance if its" 
+ " parent RDDs are also uncached.") 


} 
EigenValueDecomposition.symmetricEigs(multiplyGramianMat 
rixBy, n, k, tol, maxIter) 


} 
LE 


当 计 算 模式 是 SVDMode .LocalARPACK 和 SVDMode.LocalLAPACK 时 ， 程 序 实 
现 的 步骤 是 先 获取 方 阵 $A^{T}A$ ， 在 计算 其 特征 值 和 特征 向 量 。 GRO RIA 
述 ， 我 们 只 需要 注意 它 无 法 处 理 列 大 于 65535 的 矩阵 。 我 们 分 别 看 这 两 种 模式 下 ， 
如 何 获取 特征 值 和 特征 向 量 。 


在 SVDMode.LocalARPACK 模式 下 ， 使 
用 EigenValueDecomposition.symmetricEigs(v => G * v, n, k, tol, 
maxIter) 计算 特征 值 和 特征 向 量 。 在 SVDMode.LocalLAPACK 模式 下 ， 直 接 使 
用 breeze 的 方法 计算 。 


在 SVDMode.DistARPACK 模式 下 ， 不 需要 先 计算 方 阵 ， 但 是 传 
A EigenValueDecomposition.symmetricEigs 方法 的 函数 不 同 。 


private[mllib] def multiplyGramianMatrixBy(v: BDV[Double]): BDV[ 
Double] = ( 
val n = numCols().toInt 
//V 作 为 广播 变量 
val vbr = rows.context.broadcast(v) 
rows. treeAggregate(BDV.zeros[Double](n) )( 
seqop = (U, r) => { 
val rBrz = r.toBreeze 
val a = rBrz.dot(vbr.value) 
rBrz match { 
// 计 算 y += x * a 
case _: BDV[_] => brzAxpy(a, rBrz.asInstanceOf[BDV[Dou 
ble]], U) 
case _: BSV[ ] => brzAxpy(a, rBrz.asInstanceOf[BSV[Dou 
ble]], U) 
case _ => throw new UnsupportedOperationException 
} 
U 
}, combOp = (U1, U2) => U1 += U2) 


e 31H U,V 以 及 Sigma 


// 获 取 特 征 值 向 量 

val sigmas: BDV[Double] = brzSqrt(sigmaSquares ) 

val sigmaO = sigmas(0) 

val threshold = rCond * sigma0 

var i = 0 

// sigmas 的 长 度 可 能 会 小 于 Kk 

// 所 以 使 用 i < min(k, sigmas.length) 代替 i < k. 

if (sigmas.length < k) { 

logWarning(s"Requested $k singular values but only found $ 

{sigmas.length} converged.") 

} 

while (i < math.min(k, sigmas.length) && sigmas(i) >= thresh 
old) { 


i+=1 
} 
val sk = i 
if (sk < k) { 
logWarning(s"Requested $k singular values but only found $ 
sk nonzeros.") 
} 
// 计 算 s， 也 即 sigma 
val s = Vectors.dense(Arrays.copyOfRange(sigmas.data, ©, sk) 


) 

// 计 算 

val V = Matrices.dense(n, sk, Arrays.copyOfRange(u.data, 0, 
n * sk)) 

//it KU 

// N = Vk * Sk^(-1) 

val N - new BDM[Double](n, sk, Arrays.copyOfRange(u.data, 9, 
n * sk)) 

var 1 = 0 

var j = 0 

while (j < sk) { 

i=0 


val sigma = sigmas(j) 
Mintle feb 2 im) 4 
/ / 5d fA ZE P 85 338 Pp 29 48 c 
N(i, j) /- sigma 


i += 1 
} 
j += 1 
} 
//U=A * N 


val U = this.multiply(Matrices.fromBreeze(N) ) 
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特征 值 分 解 


假设 向 量 v 是 方 阵 A 的 特征 向 量 ， 可 以 表示 成 下 面 的 形式 : 


Av = Av 


这 里 lambda 表示 特征 向 量 v 所 对 应 的 特征 值 。 并 且 一 个 矩阵 的 一 组 特征 向 
量 是 一 组 正 交 向 量 。 特 征 值 分 解 是 将 一 个 矩阵 分 解 为 下 面 的 形式 : 


A = QEQ™ = QZQ7 


其 中 Q 是 这 个 矩阵 A 的 特征 向 量 组 成 的 矩阵 。 sigma -NAE > & 
个 对 角 线 上 的 元 素 就 是 一 个 特征 值 。 


特征 值 分 解 是 一 个 提取 和 矩阵 特征 很 不 错 的 方法 ， 但 是 它 只 适合 于 方 阵 ， 对 于 非 
方 阵 ， 它 不 适合 。 这 就 需要 用 到 奇异 值 分 解 。 


1 源码 分 析 
MLlib 使 用 ARPACK 来 求解 特征 值 分 解 。 它 的 实现 代码 如 下 


def symmetricEigs( 
mul: BDV[Double] => BDV[Double], 
n: Int, 
KE IME, 
tol: Double, 
maxIterations: Int): (BDV[Double], BDM[Double]) = { 
val arpack = ARPACK.getInstance() 
// tolerance used in stopping criterion 
val tolW = new doublew(tol) 
// number of desired eigenvalues, © < nev < n 
val nev = new intW(k) 
// nev Lanczos vectors are generated in the first iteration 
// ncv-nev Lanczos vectors are generated in each subsequent 
iteration 
// ncv must be smaller than n 


val nev = math.min(2 * k, n) 

// "I" for standard eigenvalue problem, "G" for generalized 
eigenvalue problem 

val bmat - "I" 

// "LM" : compute the NEV largest (in magnitude) eigenvalues 

val which - "LM" 

var iparam - new Array[Int](11) 

// use exact shift in each iteration 

iparam(0) = 1 

// maximum number of Arnoldi update iterations, or the actua 
1 number of iterations on output 

iparam(2) = maxIterations 

// Mode 1: A*x = lambda*x, A symmetric 

iparam(6) = 1 


var ido = new intW(0) 

var info = new intW(0) 

var resid = new Array[Double](n) 

var v = new Array[Double](n * ncv) 

var workd = new Array[Double](n * 3) 

var workl = new Array[Double](ncv * (ncv + 8)) 
var ipntr = new Array[Int] (11) 


// call ARPACK's reverse communication, first iteration with 
ido = 0 
arpack.dsaupd(ido, bmat, n, which, nev. val’, tolW, resid, n 
Cv, V, n, iparam, ipntr, workd, 
workl, workl.length, info) 
val w - BDV(workd) 
// ido - 99 : done flag in reverse communication 
while (ido. val, !- 99) ( 
if (ido.'val' != -1 && ido. val != 1) { 
throw new IllegalStateException("ARPACK returns ido - " 
+ Ido. val + 
" This flag is not compatible with Mode 1: A*x - lam 
bda*x, A symmetric.") 
} 
// multiply working vector with the matrix 
val inputOffset = ipntr(0) - 1 
val outputOffset = ipntr(1) - 1 


val x = w.slice(inputOffset, inputOffset + n) 
val y = w.slice(outputOffset, outputOffset + n) 
y :- mul(x) 
// call ARPACK's reverse communication 
arpack.dsaupd(ido, bmat, n, which, nev. val’, tolW, resid, 
ncv, V, n, iparam, ipntr, 
workd, workl, workl.length, info) 


val d = new Array[Double](nev. val ) 

val select - new Array[Boolean](ncv) 

// copy the Ritz vectors 

val z = java.util.Arrays.copyOfRange(v, 9, nev. val~ * n) 


// call ARPACK's post-processing for eigenvectors 
arpack.dseupd(true, "A", select, d, z, n, 0.0, bmat, n, whic 
h, nev, tol, resid, ncv, v, n, 
iparam, ipntr, workd, workl, workl.length, info) 


// number of computed eigenvalues, might be smaller than k 
val computed - iparam(4) 


val eigenPairs = java.util.Arrays.copyOfRange(d, ©, computed 
).ZipWithIndex.map { r => 
(r. 1, java.util.Arrays.copyOfRange(z, r. 2 * n, r. 2 * n 
* n)) 
} 


// sort the eigen-pairs in descending order 
val sortedEigenPairs = eigenPairs.sortBy(- _._1) 


// copy eigenvectors in descending order of eigenvalues 
val sortedU = BDM.zeros[Double](n, computed) 
sortedEigenPairs.zipWithIndex.foreach { r => 
valsbs-oroes2 m 
var i= 0 
while (i < n) { 
sortedU.data(b + i) = r._1._2(1) 
i += 1 


} 
(BDV[Double](sortedEigenPairs.map( . 1)), sortedU) 


我 们 可 以 查看 ARPACK 的 注释 详细 了 解 dsaupd 和 dseupd 方法 的 作用 。 


主 成 分 分 析 是 最 常用 的 一 种 降 维 方法 。 我 们 首先 考虑 一 个 问题 : 对 于 正 交 矩阵 
空间 中 的 样本 点 ， 如 何 用 一 个 超 平面 对 所 有 样本 进行 恰当 的 表达 。 容 易 想 到 ， 如 果 
这 样 的 超 平面 存在 ， 那 么 他 大 概 应 该 具有 下 面 的 性 质 。 

e 最 近 重 构 性 : 样本 点 到 超 平面 的 距离 都 足够 近 
e 


大 可 分 性 : 样本 点 在 这 个 超 平面 上 的 投影 尽 可 能 分 开 


最 
基于 最 近 重 构 性 和 最 大 可 分 性 ， 能 分 别 得 到 主 成 分 分 析 的 两 种 等 价 推导 。 


1.1 最 近 重 构 性 


假设 我 们 对 样本 点 进行 了 中 心 化 ， 即 所 有 样本 的 和 为 0。 再 假设 投影 变换 后 得 
到 的 新 坐标 系 为 : 


[ww Wwa} Iwill = 1,w w=0 


若 丢 弃 新 坐标 系 中 的 部 分 坐标 ， 将 维度 降 到 d' ， 则 样本 点 $x 仍 8 在 低位 坐标 
AP A GZS : 


= ende As — a 
Zi = (Zi Zizi .7 Zia’), Zij = Wi Xi 


ik V $z(ij) $2 $x() 4E AKTE Ab d ACTEUR j IESU ECT Sz()$o $339 $x()$ 
A 


,那么 可 以 得 到 


d' 
j= 


考虑 整个 训练 集 ， 原 样本 点 和 基于 投影 重 构 的 样本 点 之 间 的 距离 为 


m 


m d' m 
2 Il zw; 一 Xi = 》z7zi 一 2 》z7WTxi+ C 
jai 


i=1 i=1 i=1 


x —tr(W? (> €; i) W) 


i=1 


根据 最 近 重 构 性 ， 最 小 化 上 面 的 式 子 ， 就 可 以 得 到 主 成 分 分 析 的 优化 目标 


min, — tr(WTXXTW),s.t.WTW =I 


1.2 最 大 可 分 性 
从 最 大 可 分 性 出 发 ， 我 们 可 以 得 到 主 成 分 分 析 的 另 一 种 解释 。 我 们 知道 ， 样 本 


点 $x 们 8 在 新 空间 中 超 平 面 上 的 投影 是 WAfT7Xfii$ ， 若 所 有 样本 点 的 投影 能 尽 可 能 
分 开 ， 则 应 该 使 投影 后 样本 点 的 方差 最 大 化 。 投 影 后 样本 点 的 方差 是 


HÀ WTx,xW 
i 


于 是 优化 目标 可 以 写 为 


max,, tr(WTXXTW),s.t.WTW =I 


这 个 优化 目标 和 上 文 的 优化 目标 是 等 价 的 。 对 优化 目标 使 用 拉 格 朗 日 乘 子 法 可 


>~ 
fu 


XXTW = AW 


于 是 ， 只 需要 对 协 方差 矩阵 进行 特征 值 分 解 ， 将 得 到 的 特征 值 排 序 ， 在 取 
前 d' 个 特征 值 对 应 的 特征 向 量 ， 即 得 到 主 成 分 分 析 的 解 。 


2 源码 分 析 


2.1 实例 


import org.apache.spark.mllib.linalg.Matrix 

import org.apache.spark.mllib.linalg.distributed.RowMatrix 

val mat: RowMatrix =... 

// Compute the top 10 principal components. 

val pc: Matrix - mat.computePrincipalComponents(10) // Principal 
components are stored in a local dense matrix. 

// Project the rows to the linear space spanned by the top 10 pr 
incipal components. 

val projected: RowMatrix - mat.multiply(pc) 


主 成 分 分 析 的 实现 代码 在 RowMatrix 中 实现 。 源 码 如 下 : 


def computePrincipalComponents(k: Int): Matrix = { 
val n = numCols().toInt 
// 计 算 协 方差 矩阵 
val Cov = computeCovariance().toBreeze.asInstanceOf [BDM[Doub 
le]] 
// 特 征 值 分 解 
val brzSvd.SVD(u: BDM[Double], _, _) = brzSvd(Cov) 
if (k == n) { 
Matrices.dense(n, k, u.data) 
} else { 
Matrices.dense(n, k, Arrays.copyOfRange(u.data, 9, n * k)) 


这 上 段 代 码 首 先 会 计算 样本 的 协 方差 矩阵 ， 然 后 在 通过 breeze  svd 方法 进 
行 奇 异 值 分 解 。 这 里 由 于 协 方差 矩阵 是 方 阵 ， 所 以 奇异 值 分 解 等 价 于 特征 值 分 解 。 
下 面 是 计算 协 方差 的 代码 


def computeCovariance(): Matrix 
numCols().toInt 
checkNumColumns(n) 


{ 


val n 


val (m, mean) = rows.treeAggregate[(Long, 


BDV. zeros[Double](n) ) )( 
segOp = (s: (Long, 
S. 2 += v.toBreeze), 


combOp = (si: (Long, BDV[Double]), s2: 
) => 
(S1.1 t.92. 1, S51.—2 += $2. 2) 
) 
updateNumRows (m) 
mean :/- m.toDouble 
// We use the formula Cov(X, Y) = E[X * 


heals not caccurate aut EDX = Y] as 
// large but Cov(X, Y) is small, but it 


BDV[Double])]((6L, 


BDV[Double]), v: Vector) => (s... 1 + iL, 


(Long, BDV[Double]) 


X] ER) TED] T WEG 
is good for sparse c 


sparse data. 
asInstanceOf [BDM[Dou 


omputation. 
// TODO: find a fast and stable way for 
val G - computeGramianMatrix().toBreeze. 
ble]] 
var i = 0 
var jJ = 0 
val m1 - m - 1.0 
var alpha - 0.0 
while (i « n) ( 
alpha = m / mi * mean(i) 
] = 工 
while (j « n) { 
val Gij - G(i, j) / m1 - alpha * mean(j) 
G(i, j) = Gij 
G(j, i) = Gij 
ita 
} 
i += 1 
} 
Matrices.fromBreeze(G) 
} 
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TF-IDF 
1 介绍 


词 频 - 逆 文档 频率 法 ( Term frequency-inverse document frequency, TF- 
IDF ) 是 在 文本 挖掘 中 广泛 使 用 的 特征 向 量化 方法 。 它 反映 语 料 中 词 对 文档 的 重要 
程度 。 假 设 用 t 表示 词 ，d 表示 文档 ，D 表示 语 料 。 词 频 TF(t,d) 表示 
F t 在 文档 d 中 出 现 的 次 数 。 文 档 频率 DF(t,D) 表示 语 料 中 出 现 词 t 的 文档 
的 个 数 。 如 果 我 们 仅仅 用 词 频 去 衡量 重要 程度 ， 这 很 容 钨 过 分 强调 出 现 频 繁 但 携带 
较 少 文档 信息 的 词 ， 如 of ^ the 等 。 如 果 一 个 词 在 语 料 中 出 现 很 频繁 ， 这 意味 
着 它 不 携带 特定 文档 的 特殊 信息 。 逆 文档 频率 数值 衡量 一 个 词 提供 多 少 信 息 。 


ID|+1 


IDF(t D) = log ——————_ 
(D) S DF(t,D)4 1 


如 果 某 个 词 出 现在 所 有 的 文档 中 ， 它 的 IDF 值 为 0。 注意 ， 上 式 有 个 平滑 项 ， 
这 是 为 了 避免 分 母 为 0 的 情况 发 生 。 TF-IDF 就 是 TF 和 IDE 简单 的 相 乘 。 


TFIDF(t,d, D) = TF(t,d) * IDF(t, D) 


词 频 和 文档 频率 的 定义 有 很 多 种 不 同 的 变种 。 在 M11ib 中 ， 分 别提 供 
了 TF 和 IDF 的 实现 ， 以 便 有 更 好 的 灵活 性 。 


Mllib 使 用 hashing trick 实现 词 频 。 元 素 的 特征 应 用 一 个 hash 函数 映 
射 到 一 个 索引 ( 即 词 ) ， 通 过 这 个 索引 计算 词 频 。 这 个 方法 避免 计算 全 局 的 词 -索引 
映射 ， 因 为 全 局 的 词 -索引 映射 在 大 规模 语 料 中 花费 较 大 。 但 是 ， 它 会 出 现 哈 希 冲 
突 ， 这 是 因为 不 同 的 元 素 特征 可 能 得 到 相同 的 哈 希 值 。 为 了 减少 碰撞 冲突 ， 我 们 可 
以 增加 目标 特征 的 维度 ， 例 如 哈 希 表 的 桶 数量 。 默 认 的 特征 维度 是 1048576 © 


2 实例 


e TF 的 计算 


import org.apache.spark.rdd.RDD 

import org.apache.spark.SparkContext 

import org.apache.spark.mllib.feature.HashingTF 

import org.apache.spark.mllib.linalg.Vector 

val sc: SparkContext =... 

// Load documents (one per line). 

val documents: RDD[Seq[String]] = sc.textFile("...").map( .split( 
" "), toSeq) 

val hashingTF = new HashingTF() 

val tf: RDD[Vector] - hashingTF.transform(documents) 


ES 到 


e |DF 的 计算 


import org.apache.spark.mllib.feature.IDF 
// ... continue from the previous example 
tf.cache() 

val idf - new IDF().fit(tf) 

val tfidf: RDD[Vector] - idf.transform(tf) 
// XA 

val idf = new IDF(minDocFreq = 2).fit(tf) 
val tfidf: RDD[Vector] = idf.transform(tf) 


3 源码 实现 


下 面 分 别 分 析 HashingTF 和 IDF 的 实现 。 


3.1 HashingTF 


def transform(document: Iterable[_]): Vector = { 
val termFrequencies = mutable.HashMap.empty[Int, Double] 
document.foreach { term => 
val i = indexOf (term) 
termFrequencies.put(i, termFrequencies.getOrElse(i, 0.0) + 
1.0) 
} 


Vectors.sparse(numFeatures, termFrequencies.toSeq) 


| Gu 


以 上 代码 中 ， indexof 方法 使 用 哈 希 获得 索引 。 


// 为 了 减少 碰撞 ， 将 numFeatures 设 置 为 1048576 
def indexOf(term: Any): Int = Utils.nonNegativeMod(term.##, numF 
eatures) 
def nonNegativeMod(x: Int, mod: Int): Int - ( 
val rawMod = x % mod 
rawMod + (if (rawMod < ©) mod eise 0) 


这 里 的 term.44 等 价 于 term.hashCode ， 得 到 哈 希 值 之 后 ， 作 取 余 操作 得 
到 相应 的 索引 。 


3.2 IDF 
我 们 先 看 IDF 的 fit 方法 。 


def fit(dataset: RDD[Vector]): IDFModel = { 
val idf = dataset.treeAggregate(new IDF.DocumentFrequencyAgg 
regator ( 
minDocFreq = minDocFreq) )( 
seqOp = (df, v) => df.add(v), 
combOp = (dfi, df2) => dfi.merge(df2) 
).idf() 
new IDFModel(idf) 


该 函数 使 用 treeAggregate 处 理 数据 集 ， 生 成 一 
个 DocumentFrequencyAggregator 对 象 ， 它 用 于 计算 文档 频率 。 重 点 
看 add 和 merge 方法 。 


def add(doc: Vector): this.type = { 
if (isEmpty) { 
df = BDV.zeros(doc.size) 
} 
U E 
doc match { 
case SparseVector(size, indices, values) => 
val nnz = indices.size 
var k = 0 
while (k < nnz) { 
if (values(k) > 0) { 
df(indices(k)) += iL 


case DenseVector(values) => 
val n = values.size 
var j] = 0 
while (j < n) (1 
if (values(j) > 0.0) { 
eis E ae 
} 
J ta í 
} 
case other => 
throw new UnsupportedOperationException 
} 
m += 1L 
this 


df 这 个 向 量 的 每 个 元 素 都 表示 该 索引 对 应 的 词 出 现 的 文档 数 。 m 表示 文档 


def merge(other: DocumentFrequencyAggregator): this.type = { 
if (!other.isEmpty) { 

m += other.m 

if (df == null) { 
df = other.df.copy 

} else { 
// 简 单 的 向 量 相 加 
df += other .df 


this 


treeAggregate 方法 处 理 完 数据 之 后 ， 调 用 idf 方法 将 文档 频率 低 于 给 定 
值 的 词 的 idf 置 为 0， 其 它 的 按照 上 面 的 公式 计算 。 


def idf(): Vector = ( 
val n = df.length 
val inv = new Array[Double](n) 
var j = 0 
while (j « n) { 
if (df(j) >= minDocFreq) ( 
// 计 算得 到 idf 
inv(j) = math.log((m + 1.0) / (df(j) + 1.0)) 
} 
J = í 
} 


Vectors.dense(inv) 


最 后 使 用 transform 方法 计算 tfidf 值 。 


// 这 里 的 dataset 指 tf 
def transform(dataset: RDD[Vector]): RDD[Vector] = { 
val bcIdf = dataset.context.broadcast(idf) 
dataset.mapPartitions(iter => iter.map(v => IDFModel.transfo 
rm(bcIdf.value, v))) 
J 
def transform(idf: Vector, v: Vector): Vector - ( 
val n = v.size 
v match { 
case SparseVector(size, indices, values) => 
val nnz - indices.size 
val newValues - new Array[Double](nnz) 
var k = 0 
while (k < nnz) { 
//tf-idf = tf * idf 
newvalues(k) = values(k) * idf(indices(k)) 
k += 1 
J 
Vectors.sparse(n, indices, newValues) 
case DenseVector(values) -» 
val newValues - new Array[Double](n) 
var ] = 0 
while (j < n) { 
newValues(j) = values(j) * idf(j) 
Jas 
} 
Vectors.dense(newValues) 
case other => 
throw new UnsupportedOperationException 


Word2Vector 


Word2Vector 将 词 转 换 成 分 布 式 向 量 。 分 布 式 表示 的 主要 优势 是 相似 的 词 在 向 
量 空间 距离 较 近 ， 这 使 我 们 更 容易 泛 化 新 的 模式 并 且 使 模型 估计 更 加 健壮 。 分 布 式 
的 向 量 表示 在 许多 自然 语言 处 理应 用 (如 命名 实体 识别 、 消 歧 、 词 法 分 析 、 机 器 翻 
译 ) 中 非常 有 用 。 


1 模型 


在 MLlib 中 ， Word2Vector 使 用 skip-gram 模型 来 实现 。 skip-gram 的 
训练 目标 是 学 习 词 向 量 表示 ， 这 个 表示 可 以 很 好 的 预测 它 在 相同 句子 中 的 上 下 文 。 
数学 上 ， 给 定 训练 词 w_1,w_2,...,w_T ， skip-gram 模型 的 目标 是 最 大 化 下 面 
的 平均 对 数 似 然 。 


j=k 


T 
1 
=). 2, logp (Wz, ;|We) 


t=1 j=—k 


其 中 k 是 训练 窗口 的 大 小 。 在 skip-gram 模型 中 ， 每 个 词 w 和 两 个 向 
量 uw vw 相关 联 ， 这 两 个 向 量 分 别 表 示 词 和 上 下 文 。 正 确 地 预测 给 定 
词 wj 的 条 件 下 wi 的 概率 使 用 softmax 模型 。 


( | ) exp(Uy,, Vw ;) 
D W.IW: es 
ut rad i uf Uy, 


其 中 v 表示 词汇 数量 。 在 skip-gram 模型 中 使 用 softmax 是 非常 昂贵 的 ， 
因为 计算 log p(wilwj) 5 V 是 成 比例 的 。 为 了 加 快 Word2Vec 的 训练 速 
E» MLlib 使 用 了 分 层 softmax ,这 样 可 以 将 计算 的 复杂 度 降 低 
为 0(log(V)) ° 


2 实例 


下 面 的 例子 展示 了 怎样 加 载 文本 数据 、 切 分 数据 、 构 造 Word2Vec 实例 、 训 练 
模型 。 最 后 ， 我 们 打印 某 个 词 的 40 个 同义词 。 


import org.apache.spark._ 

import org.apache.spark.rdd._ 

import org.apache.spark.SparkContext._ 

import org.apache.spark.mllib. feature. {word2Vec, Word2VecModel} 

val input = sc.textFile("text8").map(line => line.split(" ").toS 

eq) 

val word2vec = new Word2Vec() 

val model = word2vec.fit(input ) 

val synonyms = model.findSynonyms("china", 40) 

for((synonym, cosineSimilarity) «- synonyms) { 
println(s"$synonym $cosineSimilarity") 


3 源码 分 析 

由 于 涉及 神经 网 络 相关 的 知识 ， 这 里 先 不 作 分 析 ， 后 续 会 补 上 。 要 更 详细 了 
解 Word2Vector 可 以 阅读 文献 【2】 © 
参考 文献 


[1] '&X EM 5 X € I 
[2] Deep Learning 实战 之 word2vec 


[3] Word2Vector 4-4 3: HL 


CountVectorizer 


CountVectorizer 和 CountVectorizerModel 的 目的 是 帮助 我 们 将 文本 文 
档 集 转换 为 词 频 ( token counts ) 向 量 。 当 事先 没有 可 用 的 词典 
时 ，CountVectorizer 可 以 被 当做 一 个 Estimator 去 抽取 词汇 ,并 且 生 
成 CountVectorizerModel ° 这 个 模型 通过 词汇 集 为 文档 生成 一 个 稀疏 的 表示 ,这 
个 表示 可 以 作为 其 它 算 法 的 输入 ,比如 LDA 。 在 训练 的 过 程 
T, CountVectorizer 将 会 选择 使 用 语 料 中 词 频 个 数 前 vocabSize 的 词 。 一 个 可 
选 的 参数 minDF 也 会 影响 训练 过 程 。 这 个 参数 表示 可 以 包含 在 词典 中 的 词 的 最 小 
个 数 ( 如 果 该 参数 小 于 1, 则 表示 比例 )。 另 外 一 个 可 选 的 boolean 参数 控制 着 输出 向 
So 如 果 将 它 设 置 为 true ,那么 所 有 的 非 0 词 频 都 会 赋值 为 1。 这 对 离散 的 概率 模 
型 非常 有 用 。 


沂 例 


假设 我 们 有 下 面 的 DataFrame , 它 的 列 名 分 别 是 id 和 texts. 


(0) | Array("a", o PIE) 
1 | Array("a", gl ons SEU eG oy ales) 


texts 列 的 每 一 行 表示 一 个 类 型 为 Array[String] 的 文 
档 。 CountVectorizer 生成 了 一 个 带 有 词典 (a, b, 
c) 的 CountVectorizerModel 。 经 过 转换 之 后 ,输出 的 列 为 vector 。 


id | texts | vector 
© | Array("a", "b", "c") | (3, [0,1,2], [1.0, 1.0, 1.0] 


ip evene s MT pue Hee ene Tr (Gi, (Ge, 2h poses 


下 面 是 代码 调用 的 方法 。 


import org.apache.spark.ml.feature.(CountVectorizer, CountVector 
izerModel} 


val df = spark.createDataFrame(Seq( 
(0, Array("a", M reus 
(as Array("a", b y Dc. "a")) 
)).toDF("id", "words") 


// fit a CountVectorizerModel from the corpus 
val cvModel: CountVectorizerModel = new CountVectorizer() 
.setInputCol("words") 
.setOutputCol("features") 
. setVocabSize(3) 
. setMinDF(2) 
.fit(df) 


// alternatively, define CountVectorizerModel with a-priori voca 
bulary 
val cvm = new CountVectorizerModel(Array("a", "b", "c")) 
.setInputCol("words") 
.setOutputCol("features") 


cvModel.transform(df).select("features").show() 


规则 化 


规则 化 器 缩放 单个 样本 让 其 拥有 单位 $L^{p}$ 范 数 。 这 是 文本 分 类 和 有 聚 类 常用 的 
操作 。 例 如 ， 两 个 $L^{2}$ 规 则 化 的 TFIDF 向 量 的 点 乘 就 是 两 个 向 量 的 cosine 相 
似 度 。 


Normalizer 实现 VectorTransformer ， 将 一 个 向 量规 则 化 为 转换 的 向 
量 ， 或 者 将 一 个 RDD 规则 化 为 另 一 个 RDD 。 下 面 是 一 个 规则 化 的 例子 。 


import org.apache.spark.SparkContext._ 

import org.apache.spark.mllib.feature.Normalizer 

import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.util.MLUtils 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample libsvm 
data EXET) 

// 默 认 情 况 下 ，p=2。 计 算 2 阶 范 数 

val normalizeri = new Normalizer() 

val normalizer2 = new Normalizer(p = Double.PositiveInfinity) 

// Each sample in data1 will be normalized using $L^2$ norm. 

val datal = data.map(x => (x.label, normalizeri.transform(x.feat 
ures))) 

// Each sample in data2 will be normalized using $L4\infty$ norm. 


val data2 - data.map(x -» (x.label, normalizer2.transform(x.feat 
ures))) 


E I] 


规则 化 的 实现 很 简单 ， 我 们 看 它 的 transform 方法 。 


override def transform(vector: Vector): Vector = { 
// 求 范 数 
val norm = Vectors.norm(vector, p) 
if (norm != 0.0) { 
/ / Fi Hey x T VAS MM index 
vector match { 
case DenseVector(vs) => 
val values = vs.clone() 
val size = values.size 
var i = 0 
while (i < size) { 
values(i) /= norm 
i-*-1 
} 
Vectors.dense(values) 
case SparseVector(size, ids, vs) => 
val values = vs.clone() 
val nnz = values.size 
var 1 = 0 
while (i < nnz) { 
values(i) /= norm 
i+=1 
} 
Vectors.sparse(size, ids, values) 
case v => throw new IllegalArgumentException("Do not sup 
port vector type " + v.getClass) 
} 
} else { 
vector 


求 范 数 调用 了 vectors.norm 方法 ， 我 们 可 以 看 看 该 方法 的 实现 。 


def norm(vector: Vector, p: Double): Double = { 
val values = vector match { 
case DenseVector(vs) => vs 
case SparseVector(n, ids, vs) => vs 
case v => throw new IllegalArgumentException("Do not suppo 


rt vector type " + v.getClass) 


} 
val size = values.length 
if (o == oq 
var sum = 0.0 
var 1 = 0 
while (i < size) { 
sum += math.abs(values(i)) 
i += 1 
} 
sum 
} else if (p == 2) { 
var sum = 0.0 
var 1 = 0 
while (i < size) { 
sum += values(i) * values(i) 
i += 1 
} 
math.sqrt(sum) 
} else if (p == Double.PositiveInfinity) { 
var max = 0.0 
var 1 = 0 
while (i < size) { 
val value = math.abs(values(i) ) 
if (value > max) max = value 
i += 1 
} 
max 
} else { 
var sum = 0.0 
var i = 0 
while (i < size) { 
sum += math.pow(math.abs(values(i)), p) 
i += 1 
} 
math.pow(sum, 1.0 / p) 


这 里 分 四 种 情况 。 当 p=1 时 ， 即 计算 一 阶 范 数 ， 它 的 值 为 所 有 元 素 绝 对 值 之 
和 。 当 p=2 时 ， 它 的 值 为 所 有 元 素 的 平方 和 。 当 p == 
Double.PositiveInfinity 时 ， 返 回 所 有 元 素 绝 对 值 的 最 大 值 。 如 果 以 上 三 种 情 
况 都 不 满足 ， 那 么 按照 下 面 的 公式 计算 。 


n 

1 

(> [watue,|?)? 
i=1 


Tokenizer 


Tokenization 是 一 个 将 文本 (如 一 个 句子 ) 转 换 为 个 体 单元 (如 词 ) 的 处 理 过 程 。 一 
个 简单 的 Tokenizer 类 就 提供 了 这 个 功能 。 下 面 的 例子 展示 了 如 何 将 句子 转换 为 
此 序列 。 


RegexTokenizer 基于 正则 表达 式 匹 配 提供 了 更 高 级 的 断 词 
( tokenization )。 上 默认 情况 下 ,参数 pattern (默认 是 \s+ ) 作 为 分 隔 符 , HRW 
分 输入 文本 。 用 户 可 以 设置 gaps 参数 为 false 用 来 表明 正则 参数 pattern 表 
示 tokens 而 不 是 splitting gaps ,这 个 类 可 以 找到 所 有 匹配 的 事件 并 作为 结果 
返回 。 下 面 是 调用 的 例子 。 


import org.apache.spark.ml.feature. {RegexTokenizer, Tokenizer} 


val sentenceDataFrame = spark.createDataFrame(Seq( 
(0, "Hi I heard about Spark"), 
(1, "I wish Java could use case classes"), 
(2, "Logistic,regression,models,are,neat") 
)).toDF("label", "sentence") 


val tokenizer = new Tokenizer().setInputCol("sentence").setOutpu 
tCol("words") 
val regexTokenizer - new RegexTokenizer() 
-SetInputCol("sentence") 
.setOutputCol("words") 
.setPattern("\\W") // alternatively .setPattern("\\w+").setGap 
s(false) 


val tokenized - tokenizer.transform(sentenceDataFrame) 
tokenized.select("words", "label").take(3).foreach(println) 

val regexTokenized - regexTokenizer.transform(sentenceDataFrame) 
regexTokenized.select("words", "label").take(3).foreach(println) 


StopWordsRemover 


Stop words 是 那些 需要 从 输入 数据 中 排除 掉 的 词 。 删 除 这 些 词 的 原因 是 , 这 些 
词 出 现 频 繁 ,并 没有 携带 太 多 有 意义 的 信息 。 


StopWordsRemover 输入 一 串 和 句子, 将 这 an 句子 中 的 停 用 词 全 部 删 掉 。 停 
用 词 列 表 是 通过 stopwords 参数 来 指定 的 。 言 的 默认 停 用 词 可 以 通过 调 
用 StopwordsRemover.loadDefaultStopwords(language) 来 获得 。 可 以 用 的 语 
言 选项 有 danish ，dutch ，english ，finnish ，french , german 
hungarian , italian , norwegian , portuguese , russian , spanish 
swedish 以 及 turkish 。 参 数 caseSensitive 表示 是 否 对 大 小 写 敏感 ,默认 
为 false 。 


mr 


假设 我 们 有 下 面 的 DataFrame , 列 名 为 id 和 raw 。 


id | raw 
----| e ayaa E are E 
O | [I, saw, the, red, baloon] 
| [Mary, had, a, little, lamb] 


把 raw 作为 输入 列 ， filtered 作为 输出 列 ,通过 应 用 StopwordsRemover 我 
们 可 以 得 到 下 面 的 结果 。 


id | raw | filtered 

----| ——€———————— re | Se ee ee ae Se eee eee 
© | [I, saw, the, red, baloon] | [saw, red, baloon] 
1 | [Mary, had, a, little, lamb]|[Mary, little, lamb] 


下 面 是 代码 调用 的 例子 


import org.apache.spark.ml.feature.StopwordsRemover 


val remover = new StopWordsRemover ( ) 
.setInputCol("raw") 
.setOutputCol("filtered") 


val dataSet - spark.createDataFrame(Seq( 
(0. Seq( TL saw" het aredi balloons), 
seg Mary”. “had" “ay le c amb 
)).toDF("id", "raw") 


remover.transform(dataSet).show() 


n-gram 


一 个 n-gram 是 一 个 包含 n 个 tokens (如 词 ) 的 序列 。 NGram 可 以 将 输入 特 
征 转换 为 n-grams 。 


NGram 输入 一 系列 的 序列 ,参数 n 用 来 决定 每 个 n-gram 的 词 个 数 。 输 出 包 


含 一 个 n-grams 序列 ,每 个 n-gram 表示 一 个 划 定 空间 的 连续 词 序列 。 如 果 输 入 
序列 包含 的 词 少 于 n ,将 不 会 有 输出 。 


import org.apache.spark.ml.feature.NGram 


val wordDataFrame - spark.createDataFrame(Seq( 

(0. Array(" "Ha" —r". “heard”, "about". "Spark")), 

(1, Array (Gli “wish, “Java, "could. "use' case "classe 
s")), 

(2, Array("Logistic", "regression", "models", "are", "neat")) 
)).tobF("label", "words") 


val ngram = new NGram().setInputCol("words").setOutputCol("ngram 
s") 

val ngramDataFrame - ngram.transform(wordDataFrame) 
ngramDataFrame.take(3).map( .getAs[Stream[String]]("ngrams").toL 
ist).foreach(println) 


Binarizer 


Binarization 是 一 个 将 数值 特征 转换 为 二 值 特征 的 处 理 过 
f$» threshold 参数 表示 决定 二 值 化 的 阅 值 。 值 大 于 阅 值 的 特征 二 值 化 为 1, 否 则 
二 值 化 为 0。 下 面 是 代码 调用 的 例子 。 


import org.apache.spark.ml.feature.Binarizer 


val data = Array((0, 0.1), (1, 0.8), (2, 0.2)) 
val dataFrame = spark.createDataFrame(data).toDF("label", "featu 
re") 


val binarizer: Binarizer - new Binarizer() 
.setInputCol("feature") 
.setOutputCol("binarized feature") 
.setThreshold(0.5) 


val binarizedDataFrame - binarizer.transform(dataFrame) 

val binarizedFeatures = binarizedDataFrame.select("binarized fea 
ture") 

binarizedFeatures.collect().foreach(println) 


PolynomialExpansion( 多 元 展开 ) 


Polynomial expansion 是 一 个 将 特征 展开 到 多 元 空间 的 处 理 过 程 。 它 通过 n- 
degree 结合 原始 的 维度 来 定义 。 比 如 设置 degree 为 2 就 可 以 将 (x, y) 转化 
为 (xX, XX, y, Xy, y y) ° PolynomialExpansion 提供 了 这 个 功能 。 下 面 
的 例子 展示 了 如 何 将 特征 展开 为 一 个 3-degree 多 项 式 空间 。 


import org.apache.spark.ml.feature.PolynomialExpansion 
import org.apache.spark.ml.linalg.Vectors 


val data - Array( 
Vectors.dense(-2.0, 2.3), 
Vectors.dense(0.0, 0.0), 
Vectors.dense(0.6, -1.1) 
) 
val df = spark.createDataFrame(data.map(Tuplei.apply)).toDF("fea 
tures") 
val polynomialExpansion = new PolynomialExpansion() 
.setInputCol("features") 
.setOutputCol("polyFeatures") 
.setDegree(3) 
val polyDF - polynomialExpansion.transform(df) 
polyDF.select("polyFeatures").take(3).foreach(println) 


Discrete Cosine Transform (DCT) 

Discrete Cosine Transform 将 一 个 在 时 间 域 ( time domain ) 内 长 度 为 N WE 
值 序列 转换 为 另外 一 个 在 频率 域 ( frequency domain ) 内 的 长 度 为 N 的 实 值 序 
列 。 下 面 是 程序 调用 的 例子 。 


import org.apache.spark.ml.feature.DCT 
import org.apache.spark.ml.linalg.Vectors 


val data - Seq( 
Vectors.dense(0.0, 1.0, -2.0, 3.0), 
Vectors.dense(-1.0, 2.0, 4.0, -7.0), 
Vectors.dense(14.0, -2.0, -5.0, 1.0)) 


val df = spark.createDataFrame(data.map(Tuplei.apply)).toDF("fea 
tures") 


val dct - new DCT() 
.setInputCol("features") 
.setOutputCol("featuresDCT") 
.setInverse(false) 


val dctDf = dct.transform(df) 
dctDf.select("featuresDCT").show(3) 


Stringlndexer 
StringIndexer 将 标签 列 的 字符 串 编码 为 标签 索引 。 这 些 索引 


是 [0,numLabels) ,通过 标签 频率 排序 ,所 以 频率 最 高 的 标签 的 索引 为 0。 RMA 
列 是 数字 ,我 们 把 它 强 转 为 字符 串 然后 在 编码 。 


sf 
假设 我 们 有 下 面 的 DataFrame , 它 的 列 名 是 id 和 category ° 


id | category 


category 是 字符 串 列 ,拥有 三 个 标签 a,b,c ° 4 category 作为 输入 
^|, categoryIndex 作为 输出 列 ,使 用 stringIndexer 我 们 可 以 得 到 下 面 的 结 


id | category | categoryIndex 
----| RT E EUN | D cA e EE NES cat, E 
0 |a | 0.0 
1 |b | 2.0 
2456 oes ea) 
3 |a | 0.0 
4 |a | 0.0 
S lG | 1.0 


a 的 索引 号 为 0 是 因为 它 的 频率 最 高 ,C 次 之 ,b 最 后 。 


A, StringIndexer 处 理 未 出 现 的 标签 的 策略 有 两 个 : 


e 抛 出 一 个 异常 (默认 情况 ) 
e 跳 过 出 现 该 标签 的 行 


让 我 们 回 到 上 面 的 例子 ,但 是 这 次 我 们 重用 上 面 的 StringIndexer 到 下 面 的 数 
据 集 。 


category 


如 果 我 们 没有 为 StringIndexer 设置 怎么 处 理 未 见 过 的 标签 或 者 设置 
为 error , 它 将 抛 出 异常 ,否则 若 设 置 为 skip , 它 将 得 到 下 面 的 结果 。 


id | category | categoryIndex 
----| a ee | Er HÀ ae 
0 |a | 0.0 

1 |b | 2.0 

2 I | 1.0 

下 面 是 程序 调用 的 例子 


import org.apache.spark.ml.feature.StringIndexer 


val df = spark.createDataFrame( 

segreto sas DE 2 ca Saa r E) 
) 
).toDF("id", "category") 


val indexer - new StringIndexer() 
.setInputCol("category") 
.setOutputCol("categoryIndex") 


val indexed = indexer.fit(df).transform(df) 
indexed. show( ) 
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IndexToString 


与 StringIndexer 相对 的 是 ，IndexToString 将 标签 索引 列 映射 回 原来 的 字 
符 串 标签 。 no AU di 案例 是 使 用 StringIndexer 将 标签 转换 为 索引 ,然后 
通过 索引 训练 模型 ,最 后 通过 IndexTostring 将 预测 的 标签 索引 恢复 成 字符 串 标 


人 o 


P 


| F 


假设 我 们 有 下 面 的 DataFrame , 它 的 列 名 为 id 和 categoryIndex 。 


id | categoryIndex 
ed eae e 
9 | 0.0 
1 | 2.0 
2 | 1.0 
3 | 0.0 
4 | 0.0 
5 | 1.0 


把 categoryIndex 作为 输入 列 ，originalcategory 作为 输出 列 ,使 
用 IndexToString 我 们 可 以 恢复 原来 的 标签 。 


id | categoryIndex | originalCategory 
Se ae a oie ee EE 
0 | 0.0 | a 
1 | 2.0 | b 
2 | 1.0 [56 
3 | 0.0 | a 
4 | 0.0 | a 
5 | 1.0 |e 


下 面 是 程序 调用 的 例子 


import org.apache.spark.ml.feature.{IndexToString, StringIndexer 


} 


val df = spark.createDataFrame(Seq( 


(0, "a"), 
CE 
(2.9 
Gray, 
(4, "a"), 
CEN 


)).tobF("id", "category") 


val indexer - new StringIndexer() 
.setInputCol("category") 
.setOutputCol("categoryIndex") 
.fit(df) 

val indexed = indexer.transform(df ) 


val converter = new IndexToString() 
.setInputCol("categoryIndex" ) 
.setOutputCol("originalCategory") 


val converted = converter.transform( indexed) 
converted.select("id", "originalCategory").show() 


OneHotEncoder 


One-hot encoding 将 标签 索引 列 映 射 为 二 值 向 量 ,这 个 向 量 至 多 有 一 个 1 值 。 这 
个 编码 允许 要 求 连续 特征 的 算法 (如 逻辑 回归 ) 使 用 类 别 特 征 。 下 面 是 程序 调用 的 例 
子 o 


import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer 


} 


val df = spark.createDataFrame(Seq( 


(0, Nay, 
CEDE 
(2; "nou 
Gey ee Na 
(4, "a"), 
(a; CUM) 


)).tobF("id", "category") 


val indexer - new StringIndexer() 
.setInputCol("category") 
.setOutputCol("categoryIndex") 
.fit(df) 

val indexed = indexer.transform(df ) 


val encoder = new OneHotEncoder() 
.setInputCol("categoryIndex") 
.setOutputCol("categoryvVec" ) 

val encoded = encoder.transform( indexed) 

encoded.select("id", "categoryVec").show() 


Vectorlndexer 


VectorIndexer 把 数据 集中 的 类 型 特征 索引 为 向 量 。 它 不 仅 可 以 自动 的 判断 
哪些 特征 是 可 以 类 别 化 ,也 能 将 原 有 的 值 转换 为 类 别 索 引 。 通常 情况 下 , 它 的 过 程 如 
ES 


e 1 拿 到 类 型 为 vector 的 输入 列 和 参数 maxCategories 

2 根据 有 区 别 的 值 的 数量 ,判断 哪些 特征 可 以 类 别 化 。 拥 有 的 不 同 值 的 数量 至 少 
要 为 maxCategories 的 特征 才能 判断 可 以 类 别 化 。 

3 对 每 一 个 可 以 类 别 化 的 特征 计算 基于 0 的 类 别 索 引 。 

e 4 为 类 别 特征 建立 索引 ,将 原 有 的 特征 值 转换 为 索引 。 


索引 类 别 特征 允许 诸如 决策 树 和 集合 树 等 算法 适当 处 理 可 分 类 化 的 特征 ,提高 效 
ES o 


在 下 面 的 例子 中 ,我 们 从 数据 集中 读 取 标 签 点 ,然后 利用 VectorIndexer 去 判 
断 哪些 特征 可 以 被 认为 是 可 分 类 化 的 。 我 们 将 可 分 类 特征 的 值 转换 为 索引 。 转 换 后 
的 数据 可 以 传递 给 DecisionTreeRegressor 等 可 以 操作 分 类 特征 的 算法 。 


import org.apache.spark.ml.feature.VectorIndexer 


val data = spark.read.format("libsvm").load("data/mllib/sample 1 
ibsvm_data.txt") 


val indexer = new VectorIndexer() 
.setInputCol("features") 
.setOutputCol( "indexed" ) 
.setMaxCategories(i0) 


val indexerModel = indexer.fit(data) 


val categoricalFeatures: Set[Int] = indexerModel.categoryMaps.ke 

ys.toSet 

println(s"Chose ${categoricalFeatures.size} categorical features 
n 十 


categoricalFeatures.mkString(", ")) 


// Create new column "indexed" with categorical values transform 
ed to indices 

val indexedData = indexerModel.transform(data) 
indexedData. show( ) 


特征 缩放 


特征 缩放 是 用 来 统一 资 PEU NE ME 围 的 方法 ， 在 资料 处 理 中 ， 
会 被 使 用 在 资料 前 处 理 这 个 步骤 。 


1 动机 


因为 在 原始 的 资料 中 ， 各 变数 的 范围 大 不 相同 。 对 于 某 些 机 器 学 习 的 算法 ， 
没有 做 过 标准 化 ， 目 标 函 数 会 无 法 适当 的 运作 。 举 例 来 说 ， 多 数 的 ke e m 
间 的 距离 计算 两 点 的 差异 ， 若 其 中 一 个 特征 具有 非常 广 的 范围 ， 那 两 点 间 的 差异 就 
会 被 该 特征 左右 ， 因 此 ， 所 有 的 特征 都 该 被 标准 化 ， 这 样 才 能 大 略 的 使 各 特征 依 比 
例 影 响 距 离 。 另 外 一 个 做 特征 缩放 的 理由 是 他 能 使 加速 梯度 下 降 法 的 收敛 。 


2 方法 


2.1 重新 缩放 
最 简单 的 方式 是 重新 缩放 特征 的 范围 到 [o, 1] X [-1, 1] ， 依 据 原始 的 次 
料 选择 目标 范围 ， 通 式 如 下 


Qo ES min(x) 
~ max(x) — min(x) 


2.2 标准 化 


在 机 器 学 习 中 ， 我 们 可 能 要 处 理 不 同 种 类 的 资料 ， 例 如 ， 音 讯 和 图 片上 的 像素 
值 ， 这 些 资料 可 能 是 高 维度 的 ， 资 料 标 准 化 后 会 使 每 个 特征 中 的 数值 平均 变 为 0( 将 
每 个 特征 的 值 都 减 掉 原始 资料 中 该 特征 的 平均 )、 标 准 差 变 为 1， 这 个 方法 被 广泛 的 
使 用 在 许多 机 器 学 习 算 法 中 。 


3 实例 


import org.apache.spark.SparkContext._ 

import org.apache.spark.mllib.feature.StandardScaler 

import org.apache.spark.mllib.linalg.Vectors 

import org.apache.spark.mllib.util.MLUtils 

val data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample libsvm. 
data.txt") 


val scaleri = new StandardScaler().fit(data.map(x => x.features) 
) 

val scaler2 - new StandardScaler(withMean - true, withStd - true 
).fit(data.map(x -» x.features)) 

// scaler3 is an identical model to scaler2, and will produce id 
entical transformations 

val scaler3 - new StandardScalerModel(scaler2.std, scaler2.mean) 
// data1 will be unit variance. 

val data1 = data.map(x => (x.label, scaleri.transform(x.features 
))) 

// Without converting the features into dense vectors, transform 
ation with zero mean will raise 

// exception on sparse vector. 

// data2 will be unit variance and zero mean. 

val data2 = data.map(x => (x.label, scaler2.transform(Vectors.de 
nse(x.features.toArray)))) 


4 源 代 码 实现 
在 MLlib 中 ， standardScaler 类 用 于 标准 化 特征 。 


class StandardScaler QSince("1.1.0") (withMean: Boolean, withStd 
Boolean) 


StandardScaler 的 实现 中 提供 了 两 个 参数 withMean 和 withStd 。 在 介 
绍 这 两 个 参数 之 前 ， 我 们 先 了 解 fit 方法 的 实现 。 


def fit(data: RDD[Vector]): StandardScalerModel = { 
// TODO: skip computation if both withMean and withStd are f 
alse 
val summary = data.treeAggregate(new MultivariateOnlineSumma 
rizer)( 
(aggregator, data) -» aggregator.add(data), 
(aggregatori, aggregator2) => aggregatori.merge(aggregator 
2)) 
new StandardScalerModel( 
Vectors.dense(summary.variance.toArray.map(v => math.sqrt( 
v))), 
summary .mean, 
withStd, 
withMean) 


该 方法 计算 数据 集 的 均值 和 方差 (查看 概括 统计 以 了 解 更 多 信息 ) ， 并 初始 
化 StandardScalerModel 。 和 初始 化 StandardScalerModel 之 后 ， 我 们 就 可 以 调 
用 transform 方法 转换 特征 了 。 


3 withMean 参数 为 true 时 ， transform 的 实现 如 下 。 


private lazy val shift: Array[Double] = mean.toArray 
val localShift = shift 
vector match { 
case DenseVector(vs) => 
val values = vs.clone() 
val size = values.size 
if (withStd) { 
var i = 0 
while (i < size) { 
values(i) = if (std(i) != 0.0) (values(i) - locals 
hift(i)) * (1.0 / std(1)) else 0.0 
i += 1 
} 
} else { 
var 1 = 0 
while (i < size) { 
values(i) -= localShift(i) 


i += 1 


} 
Vectors.dense(values ) 
case v => throw new IllegalArgumentException("Do not sup 


port vector type " + v.getClass) 


j 


以 上 代码 显示 ， 当 withMean A true > withStd A false 时 ， 向 量 中 的 
各 元 素 均 减 去 它 相 应 的 均值 。 当 withMean 和 withstd 4A true 时 ， 各 元 素 在 
减 去 相应 的 均值 之 后 ， 还 要 除 以 它们 相应 的 方差 。 当 withMean 为 true ， 程 序 
只 能 处 理 稠密 的 向 量 ， 不 能 处 理 稀疏 向 量 。 


当 withMean 为 false 时 ， transform 的 实现 如 下 。 


vector match { 
case DenseVector(vs) => 
val values - vs.clone() 
val size - values.size 
var i = 0 
while(i < size) { 
values(i) *= (if (std(i) != 0.0) 1.0 / std(i) else 0 
20) 
i-*-1 
} 
Vectors.dense(values ) 
case SparseVector(size, indices, vs) => 
// For sparse vector, the “index” array inside sparse 
vector object will not be changed, 
// So we can re-use it to Save memory. 
val values = vs.clone() 
val nnz = values.size 
var i = 0 
while (i « nnz) { 
values(i) *- (if (std(indices(i)) != 0.0) 1.0 / std( 
indices(i)) else 0.0) 
i+=1 
} 
Vectors.sparse(size, indices, values) 
case v => throw new IllegalArgumentException("Do not sup 
port vector type " + v.getClass) 


} 


这 里 的 处 理 很 简单 ， 就 是 将 数据 集 的 列 的 标准 差 归 一 化 为 1。 


【1】 特 征 缩放 


MinMaxScaler 


MinMaxScaler 转换 由 向 量 行 组 成 的 数据 集 ,将 每 个 特征 调整 到 一 个 特定 的 范 
围 (通常 是 [0,1] )。 它 有 下 面 两 个 参数 : 


e min :默认 是 0。 转 换 的 下 界 ,被 所 有 的 特征 共享 。 
e。 max :默认 是 1。 转换 的 上 界 , 被 所 有 特征 共享 。 
MinMaxScaler 计算 数据 集 上 的 概要 统计 数据 ,产生 一 


个 MinMaxScalerModel 。 然 后 就 可 以 用 这 个 模型 单独 的 转换 每 个 特征 到 特定 的 范 
。 特征 E 被 转换 后 的 值 可 以 用 下 面 的 公式 计算 : 


$$\frac{e{i} - E{min}}{E {max} - E{min}} * (max - min) + min$$ 

对 于 E (max) == E (min) 的 情况 , Rescaled(e i) = 0.5 * (max + 
min) ° 

注意 ,由 于 0 值 有 可 能 转换 成 非 0 的 值 , 所 以 转换 的 输出 为 DenseVector ,即使 输 
入 为 稀 足 的 数据 也 一 样 。 下 面 的 例子 展示 了 如 何 将 特征 转换 到 [0,1] 。 


import org.apache.spark.ml.feature.MinMaxScaler 


val dataFrame = spark.read.format("libsvm").load("data/mllib/sam 
ple libsvm data.txt") 


val scaler = new MinMaxScaler() 
.setInputCol("features") 
.setOutputCol("scaledFeatures") 


// Compute summary statistics and generate MinMaxScalerModel 
val scalerModel - scaler.fit(dataFrame) 


// rescale each feature to range [min, max]. 
val scaledData - scalerModel.transform(dataFrame) 
scaledData.show() 
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MaxAbsScaler 


MaxAbsScaler 转换 由 向 量 列 组 成 的 数据 集 ,将 每 个 特征 调整 到 [-1,1] 的 范 
围 , 它 通过 每 个 特征 内 的 最 大 绝对 值 来 划分 。 它 不 会 移动 和 聚集 数据 ,因此 不 会 破坏 
任何 的 黎 疏 性 。 


MaxAbsScaler 计算 数据 集 上 的 统计 数据 ,生成 MaxAbsScalerModel ,然后 使 用 生 
成 的 模型 分 别 的 转换 特征 到 范围 [-1,1] 。 下 面 是 程序 调用 的 例子 。 


import org.apache.spark.ml.feature.MaxAbsScaler 


val dataFrame = spark.read.format("libsvm").load("data/mllib/sam 
ple libsvm data.txt") 
val scaler = new MaxAbsScaler() 

.setInputCol("features") 

.setOutputCol("scaledFeatures") 


// Compute summary statistics and generate MaxAbsScalerModel 
val scalerModel - scaler.fit(dataFrame) 


// rescale each feature to range [-1, 1] 
val scaledData - scalerModel.transform(dataFrame) 
scaledData.show() 


Bucketizer 


Bucketizer 将 连续 的 特征 列 转换 成 特征 桶 ( buckets ) 列 。 这 些 桶 由 用 户 指 
定 。 它 拥有 一 个 splits 参数 。 


e splits :如 果 有 n+1 个 splits ,那么 将 有 n 个 桶 。 桶 将 由 split 
x 和 split y 共同 确定 , 它 的 值 范围 为 [x,y) ,如 果 是 最 后 一 个 桶 ,范围 将 
是 [x,y] , Sits BEA BOT RETEST AAMAURMAR 
盖 所 有 的 双 精 度 值 ,否则 ,超出 splits 的 值 将 会 被 认为 是 一 个 错 
误 。 splits se Array(Double.NegativeInfinity, 0.0, 1.0, 
Double.PositiveInfinity) 和 Array(0.0, 1.0, 2.0) ° 


注意 ,如 果 你 并 不 知道 目标 列 的 上 界 和 下 界 ,你 应 该 添 
加 Double.NegativeInfinity 和 Double.PositiveInfinity 作为 边界 从 而 防 
sh E 85 超过 边界 的 异常 。 下 面 是 程序 调用 的 例子 


import org.apache.spark.ml.feature.Bucketizer 


val splits = Array(Double.NegativeInfinity, -0.5, 0.0, 0.5, Doub 
le.PositiveInfinity) 


val data - Array(-0.5, -0.3, 0.0, 0.2) 
val dataFrame = spark.createDataFrame(data.map(Tuplei.apply)).to 
DF("features") 


val bucketizer - new Bucketizer() 
.setInputCol("features") 
.setOutputCol("bucketedFeatures" ) 
.setSplits(splits) 


// Transform original data into its bucket index. 
val bucketedData - bucketizer.transform(dataFrame) 
bucketedData. show( ) 


元 素 智 能 乘积 


ElementwiseProduct 对 每 一 个 输入 向 量 乘 以 一 个 给 定 的 “权重 ”向量 。 换 和 句 话 
说 ， 就 是 通过 一 个 乘 子 对 数据 集 的 每 一 列 进行 缩放 。 这 个 转换 可 以 表示 为 如 下 的 形 
式 : 


下 面 是 一 个 使 用 的 实例 。 


import org.apache.spark.SparkContext._ 

import org.apache.spark.mllib.feature.ElementwiseProduct 

import org.apache.spark.mllib.linalg.Vectors 

// Create some vector data; also works for sparse vectors 

val data - sc.parallelize(Array(Vectors.dense(1.0, 2.0, 3.0), Ve 
ctors.dense(4.0, 5.0, 6.0))) 

val transformingVector - Vectors.dense(0.0, 1.0, 2.0) 

val transformer = new ElementwiseProduct(transformingVector ) 


// Batch transform and per-row transform give the same results: 


val transformedData - transformer.transform(data) 
val transformedData2 - data.map(x -» transformer.transform(x)) 


下 面 看 transform 的 实现 。 


override def transform(vector: Vector): Vector = { 
vector match { 
case dv: DenseVector => 
val values: Array[Double] = dv.values.clone() 
val dim = scalingVec.size 
var 1 = 0 
while (i < dim) { 
// 相 对 应 的 值 相 乘 
values(i) *= scalingVec(i) 
i-*-1 
} 
Vectors.dense(values) 
case SparseVector(size, indices, vs) => 
val values - vs.clone() 
val dim - values.length 
var i = 0 
while (i < dim) { 
// 相 对 应 的 值 相 乘 
values(i) *= scalingVec(indices(i) ) 
i-*-1 
j 
Vectors.sparse(size, indices, values) 
case v -» throw new IllegalArgumentException("Does not sup 
port vector type " + v.getClass) 


j 


SQLTransformer 


SQLTransformer 实现 了 一 种 转换 ,这 个 转换 通过 SQ1 语句 来 定义 。 目 前 我 
们 仅仅 支持 的 SQL 语法 是 像 SELECT ... FROM THIS... 的 形式 。 这 
里 THIS. 表示 输入 数据 集 相 关 的 表 。 例 如 ,SQLTransformer 支持 的 语句 如 
F 


e SELECT a, a + b AS a_b FROM _ THIS_ 
e SELECT a, SQRT(b) AS b sqrt FROM _ THIS_ where a > 5 
e SELECT a, b, SUM(c) AS c sum FROM THIS . GROUP BY a, b 


例子 


假设 我 们 拥有 下 面 的 DataFrame , 它 的 列 名 是 id,vi,v2 ° 


mo va py v2 
icem Ee 
OOo 
A 0s 25 D aco 


下 面 是 语句 SELECT *, (vi + v2) AS v3, (vi * v2) AS v4 FROM 
O THIS 的 输出 结果 。 


下 面 是 程序 调用 的 例子 。 


import org.apache.spark.ml.feature.SQLTransformer 


val df = spark.createDataFrame( 
Seaql((@ 10 30) 220 5:9) )) ODE ( ad yq Mya") 


val sqlTrans = new SQLTransformer().setStatement( 
"SELECT *, (v1 + v2) AS v3, (v1 * v2) AS v4 FROM THIS ") 


sqlTrans.transform(df).show() 


VectorAssembler 
VectorAssembler 是 一 个 转换 器 , 它 可 以 将 给 定 的 多 列 转换 为 一 个 向 量 列 。 合 
并 原始 特征 与 通过 不 同 的 转换 器 转换 而 来 的 特征 ,从 而 训练 机 器 学 习 模 型 ， 


VectorAssembler 是 非常 有 用 的 。 VectorAssembler 允许 这 些 类 型 :所 有 的 数 
EXA, boolean 类 型 以 及 vector 类 型 。 


| F 


假设 我 们 有 下 面 的 DataFrame ,o% 7144 id, hour, mobile, 


userFeatures, clicked ° 


id | hour | mobile | userFeatures | clicked 


userFeatures 是 一 个 向 量 列 ,包含 三 个 用 户 特 征 。 我 们 想 合 并 hour , 
mobile 和 userFeatures 到 一 个 名 为 features 的 特征 列 。 通过 转换 之 后 ,我 
们 可 以 得 到 下 面 的 结果 。 


id | hour | mobile | userFeatures | clicked | features 


9 | 18 | 1.0 | [0.0, 10.0, 0.5] | 1.0 | [18.0, 1.0, 0 


下 面 是 程序 调用 的 例子 。 


import org.apache.spark.ml.feature.VectorAssembler 
import org.apache.spark.ml.linalg.Vectors 


val dataset - spark.createDataFrame( 
Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0)) 
).toDF("id", "hour", "mobile", "userFeatures", "clicked") 


val assembler - new VectorAssembler() 
.setInputCols(Array("hour", "mobile", "userFeatures")) 
.setOutputCol("features") 


val output - assembler.transform(dataset) 
println(output.select("features", "clicked").first()) 


QuantileDiscretizer 


QuantileDiscretizer 输入 连续 的 特征 列 , 输 出 分 箱 的 类 别 特征 。 分 箱 数 是 
通过 参数 numBuckets 来 指定 的 。 箱 的 范围 是 通过 使 用 近似 算法 ( 见 
approxQuantile ) 来 得 到 的 。 近似 的 精度 可 以 通过 relativeError 参数 来 控制 。 
当 这 个 参数 设置 为 0 时 ,将 会 计算 精确 的 分 位 数 。 箱 的 上 边界 和 下 边界 分 别 是 正 无 穷 
和 负 无 穷 时 , 取 值 将 会 履 盖 所 有 的 实数 值 。 


例子 


假设 我 们 有 下 面 的 DataFrame , 它 的 列 名 是 id,hour 。 


id | hour 
| 
0 | 18.0 
| 
1 | 19.0 
| 
2 | 8.0 

ee ean 
3. | "5.0 

oie a ies ees 
a | 2-2 


hour 是 类 型 为 DoubleType 的 连续 特征 。 我 们 想 将 连续 特征 转换 为 一 个 分 
类 特征 。 给 定 numBuckets 为 3, 我 们 可 以 得 到 下 面 的 结果 。 


下 面 是 代码 实现 的 例子 。 


import org.apache.spark.ml.feature.QuantileDiscretizer 


val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2 
.2)) 


var df - spark.createDataFrame(data).toDF("id", "hour") 


val discretizer = new QuantileDiscretizer() 
.setInputCol("hour") 
.setOutputCol("result") 
.setNumBuckets(3) 


val result = discretizer.fit(df).transform(df) 
result .show( ) 


VectorSlicer 


VectorSlicer 是 一 个 转换 器 ,输入 一 个 特征 向 量 输出 一 个 特征 向 量 , 它 是 原 特 
征 的 一 个 子 集 。 这 在 从 向 量 列 中 抽取 特征 非常 有 用 。 VectorSlicer 接收 一 个 拥 
有 特定 索引 的 特征 列 , 它 的 输出 是 一 个 新 的 特征 列 , 它 的 值 通 过 输入 的 索引 来 选择 。 
有 两 种 类 型 的 索引 : 
e 1、 整数 索 引 表 示 进 入 向 量 的 索引 ,调用 setIndices() 
e 2、 字符 串 索引 表示 进入 向 量 的 特征 列 的 名 称 , 调 用 Se 。 这 种 情况 需 
要 向 量 列 拥有 一 个 AttributeGroup ,这 是 因为 实现 是 通过 属性 的 名 字 来 匹配 


的 。 

整数 和 字符 串 都 是 可 以 使 用 的 ,并 且 ,整数 和 字符 串 可 以 同时 使 用 。 至 少 需要 选 
择 一 个 特征 ,而 且 重复 的 特征 是 不 被 允许 的 。 

输出 向 量 首先 会 按照 选择 的 索引 进 然后 再 按照 选择 的 特征 名 进行 排序 。 
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假设 我 们 有 下 面 的 DataFrame , 它 的 列 名 是 userFeatures ° 


USerFeatures 


[0.0, 10.0, 0.5] 


userFeatures 是 一 个 向 量 列 , 它 包 含 三 个 用 户 特征 。 假 设 用 户 特征 的 第 一 列 
均 为 0, 所 以 我 们 想 删 除 它 ,仅仅 选择 后 面 的 两 列 。 VectorSlicer 通 


过 setIndices(1,2) 选择 后 面 的 两 项 ,产生 下 面 新 的 名 为 features 的 向 量 列 。 


userFeatures | features 


S eU S = sone eee erate | ----------------------------- 
[0.0, 10.0, 0.5] | [10.0, 0.5] 


假设 我 们 还 有 潜在 的 输入 特性 ,如 ["f1"，"f2"，"f3"] ,我 们 还 可 以 通 
过 setNames("f2", "f3") 来 选择 。 


userFeatures | features 


[0.0, 10.0, 0.5] | [10.0, 0.5] 
Dafi ieee p que | Laia pony 


下 面 是 程序 调用 的 例子 。 


import java.util.Arrays 


import org.apache.spark.ml.attribute.{Attribute, AttributeGroup, 
NumericAttribute) 

import org.apache.spark.ml.feature.VectorSlicer 

import org.apache.spark.ml.linalg.Vectors 

import org.apache.spark.sql.Row 

import org.apache.spark.sql.types.StructType 


val data - Arrays.asList(Row(Vectors.dense(-2.0, 2.3, 0.0))) 


val defaultAttr - NumericAttribute.defaultAttr 

val attrs = Array("fi", "f2", "f3").map(defaultAttr.withName) 
val attrGroup - new AttributeGroup("userFeatures", attrs.asInsta 
nceOf [Array [Attribute]]) 


val dataset - spark.createDataFrame(data, StructType(Array(attrG 
roup.toStructField()))) 


val slicer = new VectorSlicer().setInputCol("userFeatures").setO 
utputCol("features") 


slicer.setIndices(Array(1)).setNames(Array( "f3")) 
// or slicer.setIndices(Array(1, 2)), or slicer.setNames(Array(" 
2. iS 


val output = slicer.transform(dataset ) 
println(output.select("userFeatures", "features").first()) 


ety ‘i 
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RFormula 


RFormula 通过 一 个 R model formula 选 择 一 个 特定 的 列 。 目前 我 们 支 
AR 算 子 的 一 个 受 限 的 子 集 ,包括 ~ ，. ，: ,+ ，- 。 这 些 基本 的 算 子 是 : 


e ~ 分 开 target 和 terms 

e + 连接 term, + 0 表示 删除 截 距 ( intercept ) 
e - MR term, - 1 表示 删除 截 距 

e : 交集 

e . 除了 target 之 外 的 所 有 列 


假设 a fe b X double 列 ,我 们 用 下 面 简单 的 例子 来 证 明 RFormula 的 有 效 


e y~atb 表示 模型 y~w0O +wl*a+w2*b ,其 中 wo X 

JE, wi 和 w2 是 系数 

e y-a*b-«a:b- 1 表示 模型 y~wlil*a+tw2*b+w3*a*b, 
其 中 wi ，w2 ，w3 是 系数 


RFormula 产生 一 个 特征 向 量 列 和 一 个 double 或 string 类 型 的 标签 列 。 
比如 在 线性 回归 中 使 用 R 中 的 公式 时 , 字符 串 输 入 列 是 one-hot 编码 ,数值 列强 制 
转换 为 double 类 型 。 如 果 标 签 列 是 字符 串 类 型 , 它 将 使 用 StringIndexer 转换 
为 double 类 型 。 如 果 DataFrame 中 不 存在 标签 列 ,输出 的 标签 列 将 通过 公式 中 
指定 的 返回 变量 来 创建 。 
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假设 我 们 有 一 个 DataFrame , 它 的 列 名 是 id , country , 


hour 和 clicked 。 


id | country | hour | clicked 
soe Pocono EE ] oue 
zs | 18 | 1.0 
Se Bary | 12 | 0.0 
9 | "NZ" | 15 | 0.0 


如 果 我 们 用 clicked ~ country + hour (基于 country 和 hour 来 预 
J| clicked ) 来 作用 于 RFormula ,将 会 得 到 下 面 的 结果 。 


id | country 


| 

-1 | 
7 | "us" | 18 

| 

| 


| 1.0 [0.0, 0.0, 18.0] | 1.0 
8 | "CA" 12 | 0.0 [0.0, 1.0, 12.0] | 0.0 
9 | "NZ" 15 | 0.0 [1.0, 0.0, 15.0] | 0.0 


下 面 是 代码 调用 的 例子 。 


import org.apache.spark.ml.feature.RFormula 


val dataset = spark.createDataFrame(Seq( 
(i. “USE 18, 1.0), 
(8. "CA" 12: 9:0) 
(9, "NZ", 15, 0.0) 
))-toDF(“id“, “country, “hour, “clicked™) 
val formula = new RFormula() 
.setFormula("clicked ~ country + hour") 
.setFeaturesCol("features") 
.setLabelCol("label") 
val output - formula.fit(dataset).transform(dataset) 
output.select("features", "label").show() 


卡 方 选 择 
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特征 选择 试图 识别 
提高 速度 以 及 统计 学 习 行为 。 
类 别 特 征 的 标注 数据 。 
后 选择 排序 最 高 的 特征 。 下 面 是 一 个 使 用 的 例子 。 


import org. 
import org. 
import org. 
import org. 
import org. 


// 加 载 数 据 
val data = 
data.txt") 
//| FARA 


apache. 
apache. 
apache. 
apache. 
apache. 


MLUtils.loadLibSVMFile(sc, 


需要 类 别 特征 ， 


T i AS 


Chisqselector 根据 独立 的 卡 方 测试 对 特征 进 


spark. 
spark. 
spark. 
spark. 
spark. 


SparkContext._ 
mllib.linalg.Vectors 
mllib.regression.LabeledPoint 
mllib.util.MLUtils 
mllib.feature.ChiSqSelector 


所 以 对 特征 除 一 个 整数 。 虽 然 特征 是 double 


// 但 是 ChiSqSelector 将 每 个 唯一 的 值 当 做 一 个 类 别 
val discretizedData = data.map { lp => 

LabeledPoint(lp.label, Vectors.dense(lp.features.toArray.map { 

x => (x / 16).floor ) ) ) 


j 


// Create ChiSqSelector that will select top 50 of 692 features 


val selector - new ChiSqSelector(50) 


// Create ChiSqSelector model (selecting features) 


val transformer - 


// Filter the top 50 features from each feature vector 
val filteredData - 
LabeledPoint(lp.label, 


下 面 看 看 选择 


特征 


selector.fit(discretizedData) 


discretizedData.map { lp => 
transformer.transform(lp.features)) 


的 实现 


UE fit ° 


行 排序 


3 
类 型 


别 相关 的 特征 用 于 模型 构建 。 它 改变 特征 空间 的 大 小 ， 它 可 以 
ChiSqSelector 实现 卡 方 特征 选择 ， 它 操作 于 带 有 


， 然 


"data/mllib/sample_libsvm_ 


def fit(data: RDD[LabeledPoint]): ChiSqSelectorModel = { 


7 JEN 
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val indices - Statistics.chiSqTest(data) 
.ZipWithIndex.sortBy { case (res, _) => -res.statistic } 
. take(numTopFeatures) 
.map { case ( , indices) => indices } 
,Sorted 

new ChiSqSelectorModel(indices) 


这 里 通过 Statistics.chisqTest 计算 卡 方 检测 的 值 。 下 面 需要 了 解 卡 方 检 
测 的 理论 基础 。 


1 卡 方 检测 


1.1 什么 是 卡 方 检测 


卡 方 检验 是 一 种 用 途 很 广 的 计数 资料 的 假设 检验 方法 。 它 属于 非 参 数 检验 的 范 
畸 ， 主 要 是 比较 两 个 及 两 个 以 上 样本 率 ( 构成 比 ) 以 及 两 个 分 类 变量 的 关联 性 分 
析 。 其 根本 思想 就 是 在 于 比较 理论 频数 和 实际 频数 的 吻合 程度 或 拟 合 优 度 问 题 。 


1.2 卡 方 检测 的 基本 思想 


卡 方 检 验 是 以 ${X}^{2}$ 分 布 为 基础 的 一 种 常用 假设 检验 方法 ， 它 的 无 效 假 
设 HO 是 : 观察 频数 与 期 望 频数 没有 差别 。 


该 检验 的 基本 思想 是 : 首先 假设 HO 成 立 ， 基 于 此 前 提 计 算出 ${X}{2}$ 值 ， 它 
表示 观察 值 与 理论 值 之 间 的 偏离 程度 。 根 据 ${X} 人 {2}$ 分 布 及 自由 度 可 以 确定 
在 HO 假设 成 立 的 情况 下 获得 当前 统计 量 及 更 极端 情况 的 概率 P 。 RPR 
小 ， 说 明 观 察 值 与 理论 值 偏离 程度 太 大 ， 应 当 拒 绝 无 效 假设 ， 表 示 上 比较 资料 之 间 有 
显著 差异 ; 否则 就 不 能 拒绝 无 效 假设 ， 尚 不 能 认为 样本 所 代表 的 实际 情况 和 理论 假 
设 有 差别 。 


1.3 卡 方 值 的 计算 与 意义 


卡 方 值 表 示 观 察 值 与 理论 值 之 问 的 偏离 程度 。 计 算 这 种 偏离 程度 的 基本 思路 如 
"Ke 


e iE A 代表 某 个 类 别 的 观察 频数 ， E 代表 基于 HO 计算 出 的 期 望 频 
数 ，A 与 E 之 差 称 为 残 差 。 


© 残 差 可 以 表示 某 一 个 类 别 观察 值 和 理论 值 的 偏离 程度 ， 但 如 果 将 残 差 简单 相 加 
以 表示 各 类 别 观察 频数 与 期 望 频数 的 差别 ， 则 有 一 定 的 不 足 之 处 。 因为 残 差 有 
正 有 负 ， 相 加 后 会 彼此 抵消 ， 总 和 仍然 为 0， 为 此 可 以 将 残 差 平方 后 求 和 。 


e 另 一 方面 ， 残 差 大 小 是 一 个 相对 的 概念 ， 相 对 于 期 望 频数 为 10 时 ， 期 望 频数 为 
20 的 残 差 非常 大 ， 但 相对 于 期 望 频数 为 1000 时 20 的 残 差 就 很 小 了 。 考虑 到 这 
一 点 ， 人 们 又 将 残 差 平方 除 以 期 望 频 数 再 求 和 ， 以 估计 观察 频数 与 期 望 频数 的 
差别 。 


进行 上 述 操作 之 后 ， 就 得 到 了 常用 的 $f{X}^{2}$ 统 计量 。 其 计算 公式 是 : 
k k 
x 2. (A — E ^ z (A; — E)? _ x (A; — np;)? 
dl j " i=1 i=1 np; 


3 n 比较 大 时 ， 卡 方 统计 量 近似 服从 k-1 (tË E i 时 用 到 的 参数 个 数 ) 个 
自由 度 的 卡 方 分 布 。 由 卡 方 的 计 草 公式 可 知 ， 当 观察 频数 与 期 望 频 数 完全 一 致 时 ， 
卡 方 值 为 0 ; 观察 频数 与 期 望 频数 越 接 近 ， 两 者 之 间 的 差异 越 小 ， 卡 方 值 越 小 ; 反 
之 ， 观 察 频数 与 期 望 频 数 差别 越 大 ， 两 者 之 间 的 差异 越 大 ， 卡 方 值 越 大 。 


2 卡 方 检测 的 源码 实现 


在 MLlib 中 ， 使 用 chisquaredFeatures 方法 实现 卡 方 检测 。 它 为 每 个 特征 
进行 皮尔 牺 独 立 检测 。 下 面 看 它 的 代码 实现 。 


def chiSquaredFeatures(data: RDD[LabeledPoint], 
methodName: String = PEARSON.name): Array[ChiSqTestResult ] 

= 4 

val maxCategories = 10000 

val numCols = data.first().features.size 

val results = new Array[ChiSqTestResult](numCols) 

var labels: Map[Double, Int] = null 

// &^WZ ZY 10005 


val batchSize = 1000 
var batch = 0 
while (batch * batchSize < numCols) { 
val startCol = batch * batchSize 
val endCol = startCol + math.min(batchSize, numCols - star 
tCol) 
val pairCounts = data.mapPartitions { iter => 
val distinctLabels - mutable.HashSet.empty[Double] 
val allDistinctFeatures: Map[Int, mutable.HashSet[Double 
ji = 
Map((startCol until endCol).map(col => (col, mutable.H 
ashSet.empty[Double])): _*) 
var i= 1 
iter.flatMap { case LabeledPoint(label, features) => 
if (i % 1000 == 0) { 
if (distinctLabels.size > maxCategories) { 
throw new SparkException 
} 
allDistinctFeatures.foreach { case (col, distinctFea 
tures) => 
if (distinctFeatures.size > maxCategories) { 
throw new SparkException 


} 
i += 1 
distinctLabels += label 
features.toArray.view.zipWithIndex.slice(startCol, end 
Col).map ( case (feature, col) => 
allDistinctFeatures(col) += feature 
(col, feature, label) 


j 
).countByValue() 
if (labels -- null) ( 
// Do this only once for the first column since labels a 
re invariant across features. 
labels - 
pairCounts.keys.filter( . 1 -- startCol).map( . 3).toA 


rray.distinct.zipWithIndex.toMap 


} 
val numLabels = labels.size 
pairCounts.keys.groupBy( . 1).map { case (col, keys) => 
val features = keys.map( . 2).toArray.distinct.zipWithIn 
dex.toMap 
val numRows - features.size 
val contingency - new BDM(numRows, numLabels, new Array[ 
Double](numRows * numLabels)) 
keys.foreach { case ( , feature, label) => 
val i - features(feature) 
val j - labels(label) 
// 带 有 标签 的 特征 的 出 现 次 数 
contingency(i, j) += pairCounts((col, feature, label) ) 
} 
results(col) = chiSquaredMatrix(Matrices.fromBreeze(cont 
ingency), methodName) 
} 
batch += 1 
} 


results 


上 述 代码 主要 对 数据 进行 处 理 ， 获 取 带 有 标签 的 特征 的 出 现 次 数 ， 并 用 这 个 次 
数 计 算 卡 方 值 。 站 正 获 取 卡 方 值 的 函数 是 chisquaredMatrix 。 


def chiSquaredMatrix(counts: Matrix, methodName: String = PEARS 
ON.name): ChiSqTestResult = { 
val method = methodFromString(methodName) 
val numRows = counts.numRows 
val numCols = counts.numCols 
// get row and column sums 
val colSums = new Array[Double](numCols) 
val rowSums = new Array[Double](numRows ) 
val colMajorArr = counts.toArray 
val colMajorArrLen = colMajorArr.length 
var 1=0 
while (i « colMajorArrLen) { 
val elem - colMajorArr(i) 
if (elem < 0.0) { 


throw new IllegalArgumentException("Contingency table ca 
nnot contain negative entries.") 
} 
// 每 列 的 总 数 
colSums(i / numRows) += elem 
// 每 行 的 总 数 
rowSums(i % numRows) += elem 
i += 1 
} 
// 所 有 元 素 的 总 和 
val total = colSums.sum 
// second pass to collect statistic 
var statistic = 0.0 
var j = 0 
while (j < colMajorArrLen) { 
val col = j / numRows 
val colSum = colSums(col) 
if (colSum == 0.0) { 
throw new IllegalArgumentException("Chi-squared statisti 
c undefined for input matrix due to" 
+ s"@ sum in column [$col].") 
} 
val row = j % numRows 
val rowSum = rowSums(row) 
if (rowSum == 0.0) { 
throw new IllegalArgumentException("Chi-squared statisti 
c undefined for input matrix due to" 
+ s"© sum in row [$row].") 
} 
// 期 望 值 
val expected = colSum * rowSum / total 
/ / PEARSON 
statistic += method.chiSqFunc(colMajorArr(j), expected) 
j 1i 
j 
// 自 由 度 
val df = (numCols - 1) * (numRows - 1) 
if (df == 0) { 
// 1 column or 1 row. Constant distribution is independent 
of anything. 


// pValue = 1.0 and statistic = 0.0 in this case. 
new ChiSqTestResult(1.0, 0, 0.0, methodName, NullHypothesis 
.independence.toString) 
) else { 
// 计 算 系 积 概率 
val pValue = 1.0 - new ChiSquaredDistribution(df).cumulati 
veProbability(statistic) 
new ChiSqTestResult(pValue, df, statistic, methodName, Nul 
lHypothesis. independence. toString) 
} 
} 
// ERRA F method. chisqFunc(colMajorArr(j), expected) ° WA Tw 
的 代码 
val PEARSON 
d: Double) => { 
val dev = 


new Method("pearson", (observed: Double, expecte 


observed - expected 
dev * dev / expected 


0 
上 述 代 码 的 实现 和 参考 文献 [2] P Test of independence 的 描述 一 致 。 


【1】 卡 方 检验 


[2] Pearson's chi-squared test 


